¿Cuál es la mayor influencia que ha tenido la neurociencia en la visión por computadora y viceversa?

La neurociencia definitivamente ha influido en el desarrollo de la mayoría de los sistemas de visión por computadora (CV) y aprendizaje automático (ML). Desde la clásica función de transformación de características invariantes de escala (SIFT) e histograma de gradientes orientados (HoG) hasta los sistemas de aprendizaje profundo (DL) más recientes, como las redes neuronales convolucionales (CNN).

Vamos a profundizar un poco más, comenzando con los enfoques clásicos y terminando con las técnicas más recientes.

El algoritmo SIFT que se describe en el documento original utiliza una tubería de detección de características que utiliza la llamada diferencia de las pirámides sub-octavas gaussianas (DoG). El DoG emula las llamadas células ganglionares de la retina que rodean el centro en la retina. Estas células ganglionares tienen un centro antagonista y regiones circundantes. Hay dos variantes, las células ganglionares descentradas y centradas, el descentrado se apaga cuando cae más luz en el centro que el entorno, mientras que el centro es lo opuesto.

Entonces, lo que hace este DoG es mejorar los bordes o las regiones que “se destacan”. Por lo tanto, calcular los máximos locales de esta respuesta DoG en la región 3x3x3 en la pirámide sub-octava produce áreas potenciales que “se destacan” o los llamados puntos de interés. Se utilizan técnicas adicionales (determinación de la arpillera) para filtrar el punto de interés ruidoso, especialmente aquellos cerca de los bordes, ya que DoG también responderá fuertemente en los bordes mal localizados. Entonces, el algoritmo SIFT está motivado parcialmente por la retina.

Los descriptores SIFT y HoG también están motivados por células complejas en la corteza visual primaria. Las células complejas no se ven afectadas por la posición de un estímulo dentro de sus campos receptivos. Por lo tanto, SIFT y HoG hacen una combinación de gradientes en histogramas para imitar esta propiedad de las células complejas. Aunque las celdas complejas pueden ser más sofisticadas que solo una operación de agrupación de suma o agrupación máxima.

En el cálculo de los descriptores HoG se aplica un proceso llamado normalización de respuesta local (LRN). Este LRN mejora el rendimiento de los descriptores HoG. El LRN está motivado por el llamado proceso de inhibición lateral en la corteza visual primaria.

Luego, en general, tenemos detectores de funciones como el detector de esquina Harris y FAST que responden a regiones de puntos y esquinas. Esto está motivado por las llamadas células terminadas en la corteza visual primaria. Las células de punta cortada en la corteza también responden a las esquinas y manchas para evitar el conocido problema de apertura. Se encuentran principalmente en las áreas de procesamiento de movimiento de la corteza visual.

Ahora para los métodos actuales que utilizan la capacitación de extremo a extremo, como la CNN y la R-CNN. Estos sistemas son versiones simplificadas de la propia corteza visual primaria. Los CNN están motivados por la disposición jerárquica de la corteza visual de capas alternas de células simples (células S) y células complejas (células C). Las celdas S corresponden a los núcleos en la CNN mientras que la agrupación corresponde a las celdas C al igual que en los descriptores SIFT y HoG.

Cuando observas R-CNN y sus variantes como Fast R-CNN, Faster R-CNN y YOLO (solo miras una vez), estos sistemas se parecen a la hipótesis de dos corrientes de la corteza visual. La corriente ventral (qué) corresponde a la CNN real que determina “qué” está en la escena, mientras que la corriente dorsal (dónde) corresponde a las redes de propuesta de región (RPN) que determina “dónde” mirar.

Entonces, la neurociencia ha moldeado la visión por computadora y el aprendizaje automático más de lo que CV y ​​ML nos han ayudado a comprender cómo funciona el sistema visual humano (HVS). Si habla de redes neuronales artificiales (ANN) que se parecen al cerebro, tiene razón en parte, pero las ANN son versiones muy simplificadas de las redes neuronales biológicas, por lo que espera que la neurociencia influya en el aprendizaje automático (ML) y no al revés.

Espero que esto ayude.

More Interesting

¿Cuáles son algunos libros que las personas interesadas en PNL deben leer?

¿Cómo son los cursos de aprendizaje automático y la investigación en la Universidad de Florida?

¿Qué es la secuencia de arranque, publicación y bios? ¿Qué viene primero?

¿Por qué la computadora usa el complemento de 2 para almacenar el número negativo en lugar del complemento de 1?

¿Qué tiene el programa de Sistemas Simbólicos en Stanford que produce tan increíbles alums?

¿El cerebro tiene algoritmos?

¿Cuál es la opción más barata para implementar microservicios?

¿La tecnología de Key-Value Store como Redis reemplazará completamente la tecnología de base de datos o MongoDB en el futuro cercano?

¿Puede un modelo de aprendizaje automático utilizar múltiples algoritmos como la regresión logística, las redes neuronales y los árboles de decisión al mismo tiempo?

¿Cómo puedo procesar grandes conjuntos de datos con mi computadora portátil? En una competencia de minería de datos, hay un CSV de 1GB de información del cliente para procesar. ¿Hay alguna manera de procesarlo sin cargarlo todo en la RAM, o podría procesar solo una parte a la vez?

Si pudiera obtener 8 bits (1 byte) de información de un oráculo que conoce el futuro dentro de 50 años, ¿qué pregunta o preguntas haría?

¿Por qué mi mouse consume un porcentaje tan grande de mi CPU?

¿Cuáles son las mejores prácticas para probar software matemático y científico?

¿Cómo puede alguien aprender ciencias de la computación usando el pensamiento de los primeros principios?

¿Hubo alguna vez en la historia una persona más inteligente que Jon Von Neumann?