¿El cerebro procesa imágenes exactamente como los algoritmos de visión AI y las CNN?

Una pregunta interesante:

El cerebro es un notable procesador de señales sensoriales y quizás la estructura más compleja y compleja del universo conocido. De los cinco sentidos, visión, olfato, dificultad, audición y gusto, la visión es la más compleja porque el cerebro utiliza 1/4 del total, alrededor de 10 a 100 mil millones, de neuronas cerebrales para la percepción visual. Si se distribuyera por igual, cada información sensorial sería procesada por 1/5 de las neuronas cerebrales.

Esto significa que la visión es muy compleja porque se trata de tener sentido a partir de una cuadrícula 2D de receptores sensibles a la luz que miden una escena 3D. Por lo tanto, se pierde una tercera dimensión cuando se visualiza una escena 3D a través de una cuadrícula sensible a la luz 2D, esto significa que para reconstruir la escena 3D necesitamos completar muchas suposiciones basadas en el conocimiento o la experiencia previa, en una visión corta nunca es exacta.

También significa que la visión no tiene una sola solución, puede haber enfoques múltiples pero diferentes que potencialmente pueden funcionar bien en la visión. Entonces, el hecho de que los CNN funcionen bien no significa que sean similares al cerebro, son similares pero también diferentes.

En el cerebro humano, la luz cae sobre una retina y se sabe que la retina no solo mide la luz y envía las mediciones sin procesar a la corteza visual primaria, sino que también realiza un preprocesamiento utilizando las células ganglionares retinianas de centro-centro sensibles al contraste y comprime el datos antes de alimentarlos a niveles de procesamiento superiores. Por otro lado, las CNN se alimentan directamente de datos RGB de píxeles sin procesar de bajo nivel sin la retina como un preprocesamiento.

En el área V2 de la tubería de procesamiento visual del sistema visual humano (HVS) se lleva a cabo un proceso llamado percepción figura-fondo. Aquí es donde el HVS decide qué características o bordes pertenecen a qué objeto / figura y, por lo tanto, determina cuál es el fondo y cuál es el primer plano mediante un proceso de asignación de características duras, similar a la segmentación basada en el conocimiento. Las CNN no tienen una fase de asignación de funciones tan dura que yo sepa.

También hay técnicas de integración de características basadas en la atención en el HVS a diferencia de las CNN. El HVS procesa características como el color, la forma, el sombreado y el movimiento por separado y luego comienza a integrarlos en serie a través de la atención. Esto contrasta con la forma en que funcionan las CNN, se alimentan directamente de las imágenes RGB sin procesar y, por lo tanto, el color, la forma y el sombreado se procesan e integran simultáneamente. Este proceso de atención en HVS permite un reconocimiento más flexible y robusto de escenas u objetos complejos.

Sin embargo, hay similitudes, la arquitectura CNN está motivada por la corteza visual primaria en sí misma, donde puedes encontrar capas alternas de S o células simples (núcleos convolucionales) y C o células complejas (agrupación). En la corteza visual primaria también puede encontrar células con tope final llamadas células hipercomplejas que se cree que implementan la detección de esquinas como en la transformación de características invariantes de escala (SIFT) o algoritmos de características robustas (SURF). Esas células hipercomplejas se encuentran principalmente en las áreas de procesamiento de movimiento de la corteza visual.

Luego también hay una hipótesis de dos corrientes del HVS con la corriente ventral (qué vía) y la corriente dorsal (donde la vía). Esta hipótesis de dos flujos es muy similar a los detectores de objetos de vanguardia actuales, a saber, los CNN basados ​​en la región (R-CNN) y sus variantes como YOLO (You Only Look Once), Fast R-CNN y Faster R-CNN. La corriente ventral se alimenta principalmente hacia adelante, por lo que es análoga a la CNN y es alguna forma de un sistema de reconocimiento que hace reconocimiento de objetos pero no localización. El flujo dorsal es un módulo de localización que corresponde a las redes de propuesta de región (RPN) en el R-CNN o en los encabezados de regresión del cuadro delimitador.

Sin embargo, hay una diferencia importante que vale la pena señalar, en las R-CNN el proceso de localización es plano y limitado a una superficie 2D (recuperación de recuadro delimitador), mientras que el flujo dorsal HVS realiza la localización en 3D.

Espero que esto ayude.

Como era de esperar, la respuesta a esto depende del nivel de abstracción del que estés hablando.

En el nivel más bajo, el ojo humano es significativamente diferente de una cámara digital ordinaria. Nuestros ojos están constantemente haciendo movimientos sacádicos y nuestras retinas solo perciben cambios en un pequeño campo visual en cualquier momento instantáneo. Todo lo demás que crees que estás viendo es una ilusión, o al menos solo ser “visto” o leído con poca resolución de memoria inmediata. Mientras que una cámara de marco normal, captura la imagen completa a la vez. Entonces, en el sensor puro y el nivel de señal, nuestro sistema visual no se parece en nada a lo que procesan los algoritmos de visión AI.

En el nivel más alto de abstracción, los humanos también detectan y rastrean objetos, movimientos, características sobresalientes de manera efectiva; y, por lo tanto, sin tener en cuenta las diferencias en los micro-mecanismos subyacentes, ¡hacemos la visión exactamente como lo hacen las máquinas!

Del mismo modo, dado que el hardware / software / software es físicamente diferente entre computadoras y cerebros, ¡habrá diferencias obvias entre los dos!

Sin embargo, hay muchas semejanzas sorprendentes en muchos niveles intermedios de abstracción. Por ejemplo, nuestro sistema de extracción de características visuales en V1 (región del cerebro) realiza cálculos que crecen jerárquicamente en una complejidad similar a las arquitecturas populares de redes neuronales convolucionales profundas (CNN) [1]. Del mismo modo, muchos algoritmos de localización y mapeo simultáneos (SLAM) también tienen semejanzas en algún nivel con la forma en que los mamíferos navegan explotando células especiales de “lugar” y “cuadrícula” en sus cerebros [2].

[1] [1406.3284] Las redes neuronales profundas rivalizan con la representación de Primate IT Cortex para el reconocimiento de objetos visuales centrales

[2] El Premio Nobel 2014 en Fisiología o Medicina