La visión por computadora (CV) como campo es bastante complicada y lo seguirá siendo durante muchos años más. La visión es una tarea muy compleja de resolver incluso por el cerebro humano, que dedica aproximadamente 2/3 [1] (60%) de las neuronas cerebrales totales al procesamiento de estímulos visuales. Hay tantas propiedades que se pueden extraer de las imágenes, una imagen vale más que mil palabras. Incluso hay más información incrustada en una señal de video.
El CV recibió un impulso de las redes neuronales convolucionales (convNet) cuando Yann LeCun logró capacitar a uno en el conjunto de datos de reconocimiento de dígitos escrito a mano llamado conjunto de datos MNIST, que desde entonces se ha convertido en el “hola mundo” del aprendizaje automático (ML). Luego, en 2012, Geoffrey Hinton y su grupo pudieron construir, en ese momento, una convNet a gran escala con:
- Unidades lineales rectificadas (ReLU) que ayudaron a entrenar estructuras profundas de manera integral.
- La deserción como la técnica de regularización que hizo que la red evitara sobreajustar los datos de entrenamiento. Implica abandonar algunas neuronas al azar en cada paso del entrenamiento. Las neuronas caídas siempre se vuelven a colocar en cada paso.
- Aceleración de hardware utilizando unidades de procesamiento de gráficos (GPU) que aumentaron rápidamente la velocidad de entrenamiento en órdenes de magnitud más rápido. Por lo tanto, las redes podrían aprender en días / semanas en lugar de varios meses.
El avance de 2012 generó un mayor interés en la aplicación de convNet y el aprendizaje profundo en general a las tareas de reconocimiento visual. Desde entonces, hemos visto innovaciones interesantes en el área de detección de objetos, así como con las llamadas redes neuronales convolucionales de la región (R-CNN) que han empujado aún más la barra del estado de la técnica en la detección de objetos. Otros han presionado tanto por la precisión como por la velocidad de inferencia, como el enfoque “solo se mira una vez” (YOLO).
- ¿Es posible que la CIA, la NSA o cualquier otra agencia de inteligencia / seguridad de todo el mundo estén haciendo una investigación clasificada de inteligencia artificial y el resto del mundo no lo sepa?
- ¿Cuál es su opinión sobre el cierre de Facebook del experimento de chatbot basado en IA después de crear su propio idioma?
- ¿Cuál es el mejor programa con la mejor IA disponible para interactuar?
- ¿Qué piensan los investigadores de IA del artículo 'Microsoft Research ve una reducción de la brecha de innovación en el aprendizaje profundo'?
- Cuando lleguemos a la inteligencia artificial general, ¿cómo determinaremos si es sensible o no?
Dicho esto, muchos investigadores pueden considerar el desafío ImageNet de clase 1000 como resuelto en este punto al igual que con MNIST. Ahora es fácil entrenar un modelo y alcanzar una precisión superior al 99% en MNIST. Por lo tanto, estos conjuntos de datos ya no son un desafío. Pero eso no significa que la visión por computadora esté resuelta. Hay muchos problemas con la mayoría de los sistemas CV que usan DL en el núcleo, como:
- Datos hambrientos . Entrenarlos requiere muchos ejemplos por clase.
- Pueden sufrir sobreajuste / falta de ajuste . Al igual que la mayoría de los otros algoritmos de ML, DL es propenso a tales.
- No son aprendices graduales . Es decir, una vez entrenados, los sistemas son rígidos y les resulta difícil codificar nuevos objetos nuevos sin una reentrenamiento significativo.
- No recuperan transformaciones como poses 3D precisas de los objetos reconocidos.
Por lo tanto, los próximos desafíos importantes en CV son diseñar e implementar sistemas que sean capaces de resolver los problemas mencionados anteriormente. Así, las áreas más atractivas de CV son:
- Aprendizaje único . Esto también es importante en el procesamiento del lenguaje natural (PNL). Para resolver esto, debemos asegurarnos de que los modelos de ML que utilizamos puedan aprender a transferir conocimiento de conceptos aparentemente no relacionados. Al igual que la forma en que un niño aprendería la apariencia de un elefante con solo unos pocos ejemplos de entrenamiento y podría generalizar bien incluso cuando lo vea al revés. El poder del aprendizaje único puede ayudarnos a construir aplicaciones más interesantes en robótica y automóviles autónomos.
- Aprendizaje no supervisado : el sistema visual capaz de aprender a descubrir objetos simplemente por interacciones con el entorno es un área de investigación muy atractiva. De hecho, es interesante observar que este enfoque parece utilizar alguna forma de segmentación. Al igual que en el área V2 de la corteza visual, hay un proceso llamado discriminación figura-fondo por el cual el sistema visual formula la hipótesis de los posibles objetos distintos mediante un proceso de asignación de características. Dichos procesos de asignación “difíciles” faltan en nuestros algoritmos de ML “blandos” debido al hecho de que no son diferenciables. El descubrimiento automático de objetos sin supervisión es importante, imagine un robot lanzado en un entorno con el que no está familiarizado, debería poder aprender a encontrar objetos distintos en ese entorno por sí mismo. Un niño hace eso con facilidad en el patio de recreo.
- Aprendizaje gradual : un sistema en un robot necesita aprender nuevos objetos gradualmente. Lo hacemos mucho cada vez que jugamos, aprendemos nuevos objetos y nuevas apariencias de personajes. Nuestro sistema visual es capaz de aprender gradualmente sin olvidar los otros modelos aprendidos importantes o sin tener que volver a entrenar todo el cerebro. ¿Cómo sucede eso? Bueno, buscar respuestas aquí seguramente puede ser fructífero.
- También construimos sistemas para ser invariables a la rotación, escala y posición, pero se supone que la percepción real recupera esas transformaciones. Por ejemplo, nuestro sistema visual es capaz de determinar con precisión la pose de los objetos conocidos para que podamos interactuar con ellos correctamente. Actualmente es un desafío para los modelos ML recuperar con precisión tales transformaciones y es por eso que todavía tenemos técnicas de visión por computadora en 3D para tareas específicas. La visión por computadora en 3D ha demostrado ser extremadamente difícil para los enfoques basados en ML. Por ejemplo, un sistema SLAM (localización y mapeo simultáneo) tiene la tarea de recuperar la ubicación del observador en un entorno desconocido y al mismo tiempo mapear el entorno. ¿Cómo podría formular tal problema en términos de un modelo ML diferenciable? En realidad es un problema completamente no diferenciable.
- Aprender de los datos de video en lugar de imágenes estáticas es una dirección de investigación muy atractiva porque los videos tienen una dimensión temporal adicional, lo que significa que se esconde información adicional en esa dimensión. Podemos construir algoritmos de aprendizaje para aprovechar eso. Pero no es tan fácil como parece, trabajar con videos es computacionalmente costoso y es difícil diseñar modelos que puedan aprovecharlo adecuadamente.
Dicho esto, el CV aún no está resuelto y, como tal, hay muchas más instrucciones de investigación en este campo. La visión por computadora es un problema inverso de los gráficos por computadora no tiene una solución única, está mal condicionada en términos matemáticos con infinitas soluciones al mismo problema. Lo que necesitamos es que nuestros sistemas de CV sean robustos y lo suficientemente útiles como para recuperar información relevante en situaciones de otro modo ruidosas e impredecibles.
La llegada de DL ha hecho que el trabajo de desarrollar sistemas CV sea más fácil con mucho menos esfuerzo en el lado humano. Podemos usar una convNet para la clasificación de imágenes de manera integral, por ejemplo, pero la mayoría de los otros problemas en CV no son plug and play, requieren algunas soluciones sofisticadas para garantizar un rendimiento confiable en la naturaleza. El problema que tenemos es que si un sistema se aplica en medicina, por ejemplo, una precisión del 80% aún significará un bajo rendimiento. Necesita sistemas con al menos una precisión comercialmente viable de alrededor del 99.5% de precisión para áreas tan sensibles, los autos sin conductor también necesitan una alta precisión y modelos explicables.
La mayoría de los sistemas que acabamos de romper fácilmente en la naturaleza y obtener una alta precisión en el desafío MNIST o ImageNet no necesariamente significa que el sistema pueda manejar las duras condiciones del mundo real. Es absolutamente un desafío hacer que algo funcione realmente en la naturaleza.
Espero que esto ayude.
Notas al pie
[1] Respuesta de Paul King a ¿Cuánto del cerebro está involucrado con la visión? ¿Qué pasa con la audición, el tacto, etc.?