Una pregunta interesante:
El cerebro es un notable procesador de señales sensoriales y quizás la estructura más compleja y compleja del universo conocido. De los cinco sentidos, visión, olfato, dificultad, audición y gusto, la visión es la más compleja porque el cerebro utiliza 1/4 del total, alrededor de 10 a 100 mil millones, de neuronas cerebrales para la percepción visual. Si se distribuyera por igual, cada información sensorial sería procesada por 1/5 de las neuronas cerebrales.
Esto significa que la visión es muy compleja porque se trata de tener sentido a partir de una cuadrícula 2D de receptores sensibles a la luz que miden una escena 3D. Por lo tanto, se pierde una tercera dimensión cuando se visualiza una escena 3D a través de una cuadrícula sensible a la luz 2D, esto significa que para reconstruir la escena 3D necesitamos completar muchas suposiciones basadas en el conocimiento o la experiencia previa, en una visión corta nunca es exacta.
- ¿El interés por los algoritmos genéticos y evolutivos está en declive?
- Si tengo una base de datos con 100 mil millones de nombres de usuario, ¿cómo construyo eficientemente una matriz ordenada a partir de eso para realizar fácilmente una búsqueda binaria?
- En la industria, ¿con qué frecuencia se usa el algoritmo de compresión Lempel-Ziv-Welch?
- ¿Cuáles son las aplicaciones prácticas de los diversos algoritmos que estudian los estudiantes de CS en Data Structures?
- ¿Por qué la complejidad temporal de los algoritmos de Edmond Karps O (VE ^ 2)? A mí me parece O (E * (E + V)).
También significa que la visión no tiene una sola solución, puede haber enfoques múltiples pero diferentes que potencialmente pueden funcionar bien en la visión. Entonces, el hecho de que los CNN funcionen bien no significa que sean similares al cerebro, son similares pero también diferentes.
En el cerebro humano, la luz cae sobre una retina y se sabe que la retina no solo mide la luz y envía las mediciones sin procesar a la corteza visual primaria, sino que también realiza un preprocesamiento utilizando las células ganglionares retinianas de centro-centro sensibles al contraste y comprime el datos antes de alimentarlos a niveles de procesamiento superiores. Por otro lado, las CNN se alimentan directamente de datos RGB de píxeles sin procesar de bajo nivel sin la retina como un preprocesamiento.
En el área V2 de la tubería de procesamiento visual del sistema visual humano (HVS) se lleva a cabo un proceso llamado percepción figura-fondo. Aquí es donde el HVS decide qué características o bordes pertenecen a qué objeto / figura y, por lo tanto, determina cuál es el fondo y cuál es el primer plano mediante un proceso de asignación de características duras, similar a la segmentación basada en el conocimiento. Las CNN no tienen una fase de asignación de funciones tan dura que yo sepa.
También hay técnicas de integración de características basadas en la atención en el HVS a diferencia de las CNN. El HVS procesa características como el color, la forma, el sombreado y el movimiento por separado y luego comienza a integrarlos en serie a través de la atención. Esto contrasta con la forma en que funcionan las CNN, se alimentan directamente de las imágenes RGB sin procesar y, por lo tanto, el color, la forma y el sombreado se procesan e integran simultáneamente. Este proceso de atención en HVS permite un reconocimiento más flexible y robusto de escenas u objetos complejos.
Sin embargo, hay similitudes, la arquitectura CNN está motivada por la corteza visual primaria en sí misma, donde puedes encontrar capas alternas de S o células simples (núcleos convolucionales) y C o células complejas (agrupación). En la corteza visual primaria también puede encontrar células con tope final llamadas células hipercomplejas que se cree que implementan la detección de esquinas como en la transformación de características invariantes de escala (SIFT) o algoritmos de características robustas (SURF). Esas células hipercomplejas se encuentran principalmente en las áreas de procesamiento de movimiento de la corteza visual.
Luego también hay una hipótesis de dos corrientes del HVS con la corriente ventral (qué vía) y la corriente dorsal (donde la vía). Esta hipótesis de dos flujos es muy similar a los detectores de objetos de vanguardia actuales, a saber, los CNN basados en la región (R-CNN) y sus variantes como YOLO (You Only Look Once), Fast R-CNN y Faster R-CNN. La corriente ventral se alimenta principalmente hacia adelante, por lo que es análoga a la CNN y es alguna forma de un sistema de reconocimiento que hace reconocimiento de objetos pero no localización. El flujo dorsal es un módulo de localización que corresponde a las redes de propuesta de región (RPN) en el R-CNN o en los encabezados de regresión del cuadro delimitador.
Sin embargo, hay una diferencia importante que vale la pena señalar, en las R-CNN el proceso de localización es plano y limitado a una superficie 2D (recuperación de recuadro delimitador), mientras que el flujo dorsal HVS realiza la localización en 3D.
Espero que esto ayude.