La neurociencia definitivamente ha influido en el desarrollo de la mayoría de los sistemas de visión por computadora (CV) y aprendizaje automático (ML). Desde la clásica función de transformación de características invariantes de escala (SIFT) e histograma de gradientes orientados (HoG) hasta los sistemas de aprendizaje profundo (DL) más recientes, como las redes neuronales convolucionales (CNN).
Vamos a profundizar un poco más, comenzando con los enfoques clásicos y terminando con las técnicas más recientes.
El algoritmo SIFT que se describe en el documento original utiliza una tubería de detección de características que utiliza la llamada diferencia de las pirámides sub-octavas gaussianas (DoG). El DoG emula las llamadas células ganglionares de la retina que rodean el centro en la retina. Estas células ganglionares tienen un centro antagonista y regiones circundantes. Hay dos variantes, las células ganglionares descentradas y centradas, el descentrado se apaga cuando cae más luz en el centro que el entorno, mientras que el centro es lo opuesto.
- ¿Cuál es la aplicación del aprendizaje automático en las ofertas en tiempo real si usted es del lado del SSP?
- ¿Por qué es malo el sistema Linux X Window?
- ¿Son ejemplos de aplicaciones web de computación en la nube?
- ¿Cuál es el algoritmo al dominar un proyecto multipista? ¿Compresión-ecualización-reverberación u otro orden?
- ¿Qué campos se volverán populares después de que la inteligencia artificial domine el mundo entero?
Entonces, lo que hace este DoG es mejorar los bordes o las regiones que “se destacan”. Por lo tanto, calcular los máximos locales de esta respuesta DoG en la región 3x3x3 en la pirámide sub-octava produce áreas potenciales que “se destacan” o los llamados puntos de interés. Se utilizan técnicas adicionales (determinación de la arpillera) para filtrar el punto de interés ruidoso, especialmente aquellos cerca de los bordes, ya que DoG también responderá fuertemente en los bordes mal localizados. Entonces, el algoritmo SIFT está motivado parcialmente por la retina.
Los descriptores SIFT y HoG también están motivados por células complejas en la corteza visual primaria. Las células complejas no se ven afectadas por la posición de un estímulo dentro de sus campos receptivos. Por lo tanto, SIFT y HoG hacen una combinación de gradientes en histogramas para imitar esta propiedad de las células complejas. Aunque las celdas complejas pueden ser más sofisticadas que solo una operación de agrupación de suma o agrupación máxima.
En el cálculo de los descriptores HoG se aplica un proceso llamado normalización de respuesta local (LRN). Este LRN mejora el rendimiento de los descriptores HoG. El LRN está motivado por el llamado proceso de inhibición lateral en la corteza visual primaria.
Luego, en general, tenemos detectores de funciones como el detector de esquina Harris y FAST que responden a regiones de puntos y esquinas. Esto está motivado por las llamadas células terminadas en la corteza visual primaria. Las células de punta cortada en la corteza también responden a las esquinas y manchas para evitar el conocido problema de apertura. Se encuentran principalmente en las áreas de procesamiento de movimiento de la corteza visual.
Ahora para los métodos actuales que utilizan la capacitación de extremo a extremo, como la CNN y la R-CNN. Estos sistemas son versiones simplificadas de la propia corteza visual primaria. Los CNN están motivados por la disposición jerárquica de la corteza visual de capas alternas de células simples (células S) y células complejas (células C). Las celdas S corresponden a los núcleos en la CNN mientras que la agrupación corresponde a las celdas C al igual que en los descriptores SIFT y HoG.
Cuando observas R-CNN y sus variantes como Fast R-CNN, Faster R-CNN y YOLO (solo miras una vez), estos sistemas se parecen a la hipótesis de dos corrientes de la corteza visual. La corriente ventral (qué) corresponde a la CNN real que determina “qué” está en la escena, mientras que la corriente dorsal (dónde) corresponde a las redes de propuesta de región (RPN) que determina “dónde” mirar.
Entonces, la neurociencia ha moldeado la visión por computadora y el aprendizaje automático más de lo que CV y ML nos han ayudado a comprender cómo funciona el sistema visual humano (HVS). Si habla de redes neuronales artificiales (ANN) que se parecen al cerebro, tiene razón en parte, pero las ANN son versiones muy simplificadas de las redes neuronales biológicas, por lo que espera que la neurociencia influya en el aprendizaje automático (ML) y no al revés.
Espero que esto ayude.