¿Cuál será la próxima gran novedad en la visión por computadora, después del rápido progreso en el aprendizaje profundo?

La visión por computadora (CV) como campo es bastante complicada y lo seguirá siendo durante muchos años más. La visión es una tarea muy compleja de resolver incluso por el cerebro humano, que dedica aproximadamente 2/3 [1] (60%) de las neuronas cerebrales totales al procesamiento de estímulos visuales. Hay tantas propiedades que se pueden extraer de las imágenes, una imagen vale más que mil palabras. Incluso hay más información incrustada en una señal de video.

El CV recibió un impulso de las redes neuronales convolucionales (convNet) cuando Yann LeCun logró capacitar a uno en el conjunto de datos de reconocimiento de dígitos escrito a mano llamado conjunto de datos MNIST, que desde entonces se ha convertido en el “hola mundo” del aprendizaje automático (ML). Luego, en 2012, Geoffrey Hinton y su grupo pudieron construir, en ese momento, una convNet a gran escala con:

Unidades lineales rectificadas (ReLU) que ayudaron a entrenar estructuras profundas de manera integral.
La deserción como la técnica de regularización que hizo que la red evitara sobreajustar los datos de entrenamiento. Implica abandonar algunas neuronas al azar en cada paso del entrenamiento. Las neuronas caídas siempre se vuelven a colocar en cada paso.
Aceleración de hardware utilizando unidades de procesamiento de gráficos (GPU) que aumentaron rápidamente la velocidad de entrenamiento en órdenes de magnitud más rápido. Por lo tanto, las redes podrían aprender en días / semanas en lugar de varios meses.

El avance de 2012 generó un mayor interés en la aplicación de convNet y el aprendizaje profundo en general a las tareas de reconocimiento visual. Desde entonces, hemos visto innovaciones interesantes en el área de detección de objetos, así como con las llamadas redes neuronales convolucionales de la región (R-CNN) que han empujado aún más la barra del estado de la técnica en la detección de objetos. Otros han presionado tanto por la precisión como por la velocidad de inferencia, como el enfoque “solo se mira una vez” (YOLO).

Dicho esto, muchos investigadores pueden considerar el desafío ImageNet de clase 1000 como resuelto en este punto al igual que con MNIST. Ahora es fácil entrenar un modelo y alcanzar una precisión superior al 99% en MNIST. Por lo tanto, estos conjuntos de datos ya no son un desafío. Pero eso no significa que la visión por computadora esté resuelta. Hay muchos problemas con la mayoría de los sistemas CV que usan DL en el núcleo, como:

Datos hambrientos . Entrenarlos requiere muchos ejemplos por clase.
Pueden sufrir sobreajuste / falta de ajuste . Al igual que la mayoría de los otros algoritmos de ML, DL es propenso a tales.
No son aprendices graduales . Es decir, una vez entrenados, los sistemas son rígidos y les resulta difícil codificar nuevos objetos nuevos sin una reentrenamiento significativo.
No recuperan transformaciones como poses 3D precisas de los objetos reconocidos.

Por lo tanto, los próximos desafíos importantes en CV son diseñar e implementar sistemas que sean capaces de resolver los problemas mencionados anteriormente. Así, las áreas más atractivas de CV son:

Aprendizaje único . Esto también es importante en el procesamiento del lenguaje natural (PNL). Para resolver esto, debemos asegurarnos de que los modelos de ML que utilizamos puedan aprender a transferir conocimiento de conceptos aparentemente no relacionados. Al igual que la forma en que un niño aprendería la apariencia de un elefante con solo unos pocos ejemplos de entrenamiento y podría generalizar bien incluso cuando lo vea al revés. El poder del aprendizaje único puede ayudarnos a construir aplicaciones más interesantes en robótica y automóviles autónomos.
Aprendizaje no supervisado : el sistema visual capaz de aprender a descubrir objetos simplemente por interacciones con el entorno es un área de investigación muy atractiva. De hecho, es interesante observar que este enfoque parece utilizar alguna forma de segmentación. Al igual que en el área V2 de la corteza visual, hay un proceso llamado discriminación figura-fondo por el cual el sistema visual formula la hipótesis de los posibles objetos distintos mediante un proceso de asignación de características. Dichos procesos de asignación “difíciles” faltan en nuestros algoritmos de ML “blandos” debido al hecho de que no son diferenciables. El descubrimiento automático de objetos sin supervisión es importante, imagine un robot lanzado en un entorno con el que no está familiarizado, debería poder aprender a encontrar objetos distintos en ese entorno por sí mismo. Un niño hace eso con facilidad en el patio de recreo.
Aprendizaje gradual : un sistema en un robot necesita aprender nuevos objetos gradualmente. Lo hacemos mucho cada vez que jugamos, aprendemos nuevos objetos y nuevas apariencias de personajes. Nuestro sistema visual es capaz de aprender gradualmente sin olvidar los otros modelos aprendidos importantes o sin tener que volver a entrenar todo el cerebro. ¿Cómo sucede eso? Bueno, buscar respuestas aquí seguramente puede ser fructífero.
También construimos sistemas para ser invariables a la rotación, escala y posición, pero se supone que la percepción real recupera esas transformaciones. Por ejemplo, nuestro sistema visual es capaz de determinar con precisión la pose de los objetos conocidos para que podamos interactuar con ellos correctamente. Actualmente es un desafío para los modelos ML recuperar con precisión tales transformaciones y es por eso que todavía tenemos técnicas de visión por computadora en 3D para tareas específicas. La visión por computadora en 3D ha demostrado ser extremadamente difícil para los enfoques basados en ML. Por ejemplo, un sistema SLAM (localización y mapeo simultáneo) tiene la tarea de recuperar la ubicación del observador en un entorno desconocido y al mismo tiempo mapear el entorno. ¿Cómo podría formular tal problema en términos de un modelo ML diferenciable? En realidad es un problema completamente no diferenciable.
Aprender de los datos de video en lugar de imágenes estáticas es una dirección de investigación muy atractiva porque los videos tienen una dimensión temporal adicional, lo que significa que se esconde información adicional en esa dimensión. Podemos construir algoritmos de aprendizaje para aprovechar eso. Pero no es tan fácil como parece, trabajar con videos es computacionalmente costoso y es difícil diseñar modelos que puedan aprovecharlo adecuadamente.

Dicho esto, el CV aún no está resuelto y, como tal, hay muchas más instrucciones de investigación en este campo. La visión por computadora es un problema inverso de los gráficos por computadora no tiene una solución única, está mal condicionada en términos matemáticos con infinitas soluciones al mismo problema. Lo que necesitamos es que nuestros sistemas de CV sean robustos y lo suficientemente útiles como para recuperar información relevante en situaciones de otro modo ruidosas e impredecibles.

La llegada de DL ha hecho que el trabajo de desarrollar sistemas CV sea más fácil con mucho menos esfuerzo en el lado humano. Podemos usar una convNet para la clasificación de imágenes de manera integral, por ejemplo, pero la mayoría de los otros problemas en CV no son plug and play, requieren algunas soluciones sofisticadas para garantizar un rendimiento confiable en la naturaleza. El problema que tenemos es que si un sistema se aplica en medicina, por ejemplo, una precisión del 80% aún significará un bajo rendimiento. Necesita sistemas con al menos una precisión comercialmente viable de alrededor del 99.5% de precisión para áreas tan sensibles, los autos sin conductor también necesitan una alta precisión y modelos explicables.

La mayoría de los sistemas que acabamos de romper fácilmente en la naturaleza y obtener una alta precisión en el desafío MNIST o ImageNet no necesariamente significa que el sistema pueda manejar las duras condiciones del mundo real. Es absolutamente un desafío hacer que algo funcione realmente en la naturaleza.

Espero que esto ayude.

Notas al pie

[1] Respuesta de Paul King a ¿Cuánto del cerebro está involucrado con la visión? ¿Qué pasa con la audición, el tacto, etc.?

Aprendizaje profundoCiencias de la computaciónInteligencia Artificialpróximas grandes cosasVisión por computadora

¿Se podría detener la inteligencia artificial?

Si fuera a construir un modelo de IBM Watson basado únicamente en los servicios en la nube existentes, ¿qué servicios usaría para los distintos componentes y cómo los integraría?

¿Cuál es la tasa de aprendizaje en las redes neuronales?

¿Existe un problema moral / ético con las relaciones sexuales entre humanos y robots humanoides, cuando el robot se ve y se comporta exactamente como un humano?

¿Puedo cursar una maestría en inteligencia artificial con una licenciatura en matemáticas?

¿Necesito tener conocimientos especializados en inteligencia artificial para hacer un valor para la sociedad?

Hay muchas tecnologías en desarrollo que tienen el potencial de ser la próxima gran cosa en la visión por computadora después del aprendizaje profundo:

La percepción de profundidad es la capacidad de un dispositivo para recopilar información de profundidad 3D sobre su entorno, en relación con la posición del dispositivo. Podemos hacer muchas cosas con solo información de profundidad:

Enseña a un robot a evitar paredes
Detectar pose de mano
Construye un conejito de Stanford

Aunque podemos lograr mucho usando solo información de profundidad, podemos lograr aún más cuando lo fusionamos con datos de imagen tomados de una cámara. Específicamente en el ámbito de la visión por computadora, podemos usar información de profundidad para aumentar nuestras cámaras dándonos una dimensión espacial completamente nueva para usar.

Posibilidades de implementación:
Realidad aumentada

La realidad está en 3D; Para aumentarlo, en primer lugar, necesitamos capturar toda su profundidad y riqueza.

Área de aprendizaje

Área de aprendizaje le da al dispositivo la capacidad de ver y recordar las características visuales clave de un espacio físico (los bordes, las esquinas, otras características únicas) para que pueda reconocer esa área nuevamente más tarde.

Rastreo de movimiento

En primer lugar, tiene un nombre confuso porque el seguimiento de movimiento en el sentido tradicional de la visión por computadora significa que estamos interesados en rastrear un objeto en particular a través de los fotogramas de un video. En el contexto de Tango, estamos rastreando el dispositivo a través del espacio 3D. Si bien esto no es algo que necesariamente requiera información de profundidad (es posible que pueda administrar el uso del flujo óptico), ciertamente ayuda a mejorar la precisión y reduce los errores de deriva.

Reconstrucción de superficie

La generación de mallas en tiempo real es increíblemente complicada, y es laborioso obtener una malla precisa en tiempo real. Incluso si escribe el algoritmo correctamente, todavía no hay una garantía absoluta de que no cierre las brechas que en realidad son puertas o ventanas abiertas. (¡Aunque la heurística puede ayudar a minimizar esto!) La reconstrucción de la superficie en tiempo real es el uso más importante de ese sensor de profundidad. ¡No queremos que las visualizaciones atraviesen paredes! Deben estar en la superficie, no en la superficie. ¡El objetivo de la reconstrucción de la superficie es descubrir cuáles son esas superficies!

Todos los algoritmos / técnicas / conceptos que he discutido proporcionan al usuario una experiencia inmersiva de AR. Todos estos algoritmos / técnicas / conceptos requieren un dispositivo con capacidades de detección de profundidad entre otro hardware. Actualmente, los dispositivos de detección de profundidad son pocos y distantes entre sí.

La percepción de profundidad en dispositivos móviles es algo a tener en cuenta a medida que avanzamos con la realidad aumentada.

Referencia:

Percepción de profundidad: la próxima gran cosa en visión artificial

Ayan Kumar Bhunia

La respuesta a esto es un poco obvia. La próxima gran cosa en la visión por computadora ciertamente será un aumento en la robótica o la automatización (llamémoslo). Como vemos, la mayor parte del trabajo con respecto al aprendizaje automático y la visión por computadora está progresando hacia la automatización. De hecho, muchas de estas máquinas automatizadas ya están presentes en los niveles organizacionales. Es solo cuestión de tiempo cuando llega a la puerta de cada hombre. Y como lo veo, la mayor parte del trabajo industrial y de investigación se centra en hacer que los mecanismos, algoritmos, etc. sean automáticos.

También me contarías si recuerdas los autos autónomos que arrasaron las noticias en el pasado reciente. La investigación avanza a un ritmo agresivo para hacer realidad los automóviles autónomos.

NOTA: El aprendizaje profundo tiene un papel importante en la funcionalidad de los autos sin conductor.

Cuando se trata de robótica, no va más lento. Busque estos enlaces y concluiría lo mismo.

Amazon Robotics

Grupo Bosch – Revisión comercial de robótica

Bosch Deepfield Robotics | página de destino

Bosch – Tendencias de robótica

Microsoft Robotics Developer Studio 4

Kuri – El adorable robot casero

Ayan Kumar Bhunia

More Interesting

¿Cómo se comportaría una red neuronal híbrida?

¿Qué son buenos libros sobre sistemas de aprendizaje adaptativo?