¿Hasta dónde hemos llegado en términos de modelado de visión? ¿Cuánto entendemos acerca de cómo se procesa la información de la visión para formar una imagen?

Depende de lo que quieras decir con una imagen.

Por lo tanto, la óptica se entiende bastante bien. La luz golpea tu ojo y se enfoca por la lente en la retina. La retina contiene conos y bastones que responden al color y bastones que no. En este punto, su ojo no es tan diferente a una cámara digital.

Los conos y bastones activados por la luz que los golpea a su vez hacen que las neuronas se disparen y dirijan la información a la corteza visual.

La parte divertida viene de cómo el cerebro da sentido a esta imagen.

Según la psicología del desarrollo, sabemos que el cerebro es mejor para recordar ciertas cosas (caras en particular) y con el tiempo otras habilidades entran en acción (como la percepción de profundidad, por ejemplo). Es relativamente seguro decir que ciertas partes de los sistemas de procesamiento de imágenes en el cerebro están construidas en estructuras y tienen poco que ver con el aprendizaje.

Sobre la base de eso, el proceso es el entrenamiento mental continuo para poder identificar objetos a través del reconocimiento de patrones, y también sabemos que un gran aspecto de esto es identificar lo que el objeto que estamos viendo no es (el mismo proceso por el que pasan los niños) cuando señalan a un perro y lo llaman gato porque lo vieron antes, y sus padres explican que en realidad es un perro).

Además de eso, mucha identificación de imagen también proviene de poder leer el contexto de la imagen. Por ejemplo, aprendemos a aproximar el tamaño de los objetos en función de cuán grandes sabemos que son los objetos cercanos.


Fuente: Objetos grandes tomados como miniaturas usando una moneda gigante y efectos de cambio de inclinación

Cómo sucede esto a nivel neurológico es en gran medida una conjetura en este momento.

Actualmente tenemos un software de reconocimiento de texto que está mejorando en la lectura del texto (o al menos en la identificación de caracteres dentro del texto). Sin embargo, gran parte de la mejora proviene de poder leer el contexto / gramática y del entrenamiento humano.

De manera similar, hay avances en la identificación de objetos en imágenes, pero, según tengo entendido, los enfoques actuales carecen de la capacidad humana para crear ideas abstractas de las cosas (es decir, crear algún modelo internalizado de “taza” que luego puede aplicarse para identificar una taza que usted nunca he visto antes). Del mismo modo, el contexto es muy difícil de enseñar a una computadora a entender (Juego divertido: Intenta descubrir cómo explicarle a una computadora la diferencia entre un niño gótico vestido de negro parado en un cementerio para el efecto y otra persona vestida de negro parado en un cementerio durante un entierro)

Nuestra comprensión del sistema visual humano se trata de la ubicación de la geografía mundial en el año 1500. En aquel entonces, tenían mapas del mar Mediterráneo entrecruzados con líneas de navegación que, con la ayuda de un sextante, podrían llevarlo a su destino. Los mapas de África mostraban la costa con exquisitos detalles. La mayor parte del interior de África se mostró como un espacio en blanco marcado “Terra Incognita”. Las Américas se mostraron como islas. Australia no sería descubierta por unos cuantos siglos más.

En este momento, recién estamos saliendo de la era de Cristóbal Colón y entrando en la era de Fernando de Magallanes.

More Interesting

¿Cuáles son los documentos fundamentales sobre la programación?

¿Qué conceptos y prácticas de metodología de investigación genérica se utilizan en el campo del aprendizaje automático?

¿Qué áreas de investigación en informática requieren experiencia en programación?

¿Cuál es la mejor solución aproximada de tiempo polinómico determinista del problema del vendedor ambulante?

¿Cuáles son las áreas de investigación actuales en informática?

¿Qué pasa si Google toma el trabajo de investigación que estoy haciendo? ¿Qué tengo que hacer?

Cómo aprender las habilidades de investigación necesarias para producir investigación rigurosa en robótica, visión por computadora o aprendizaje automático

¿Cómo puedo obtener una beca para presentar mi trabajo en una conferencia internacional de renombre?

¿Cuáles son los trabajos de investigación que un graduado de CS debería haber leído antes de seguir una carrera como desarrollador de software?

¿Cuáles son algunos algoritmos de alineación de secuencia?

¿Los procesadores se ralentizan con la edad?

¿Cuáles son los trabajos de Google Research más interesantes?

¿Cuáles son los mejores algoritmos en informática para dominar inicialmente?

¿Cuáles son algunas cosas no técnicas que uno debe saber al comenzar a hacer un doctorado en bases de datos o sistemas distribuidos?

¿Cuáles son las áreas de alcance para la investigación en inteligencia artificial (IA) para un estudiante de informática? ¿Qué hay realmente dentro de la IA?