El problema no resuelto n. ° 1 en la visión por computadora es la comprensión de la escena.
El reconocimiento de objetos recibe la mayor parte de la atención, en parte porque es fácil de definir y comprender.
Pero lo que sigue siendo el más misterioso, y lo que tendrá el mayor beneficio una vez resuelto, es la comprensión de la escena: dada una imagen del mundo (no una foto centrada en un objeto), lo que está sucediendo, cuáles son los elementos de lo visto ( visual y estructuralmente), y ¿cómo se relacionan entre sí de una manera que sea relevante para el agente que se respalda con CV?
- ¿Qué juego de estrategia te recomiendan para aprender a hacer IA?
- Un robot no puede escribir un programa. ¿Es lo contrario de esto también cierto?
- ¿Una IA avanzada vería la religión como un virus?
- ¿Cuál es la intuición detrás de las redes neuronales?
- ¿Qué piensa Pedro Domingos de OpenAI?
El camino estándar para la comprensión de la escena en la visión por computadora es modelar el entorno: dónde está el terreno; donde estan los objetos; y a qué distancia están. Pero esto no parece ser cómo lo hace el cerebro. El cerebro parece resolver la comprensión de la escena con un modelo estadístico que descompone la escena en posibilidades y relaciones estructuradas que tienen límites suaves y ambiguos y que se relacionan y apoyan la acción. ¿Se puede encontrar un modelo estadístico en la visión por computadora que relacione regiones de la escena entre sí sin depender de modelos simbólicos similares a la estructura de datos?
Un aspecto de dicho modelo será la identificación de superficies. Pero las superficies no son rectángulos planos de objetos hechos por el hombre. Un valle, una roca o una hilera de árboles pueden ser una superficie. Otro aspecto es el análisis bidimensional de la estructura de la escena. En una implementación interactiva, la organización estadística de la escena debe evolucionar continuamente a medida que un robot explora y se mueve a través de ella.
Si se resuelve la comprensión de la escena, serán posibles varias aplicaciones de CV flexibles en tiempo real.