En la visión por computadora, ¿el aprendizaje automático va a hacer obsoletos los algoritmos de aprendizaje no automático?

Hay algunos problemas en la visión por computadora en los que ya tiene el modelo exacto de la geometría o el diseño del sensor. Por ejemplo, una matriz esencial relaciona dos vistas calibradas de la misma escena. Incluso puede aprender la estructura de esta relación a partir de muchos datos, pero ¿cuál es el punto? Por otro lado, probablemente debería usar métodos de aprendizaje discriminativos para encontrar los valores para esa matriz dadas dos imágenes de prueba, por supuesto, sujetas a las restricciones que representa la matriz esencial.

Por otro lado, hay muchos problemas en los que décadas de esfuerzo de modelado han sido superados por las llamadas canalizaciones “de extremo a extremo” que aprenden de los datos. Por ejemplo, aprender plantillas para el reconocimiento de objetos contra fondos desordenados. Pero incluso aquí hay lecciones de la investigación de modelos explícitos que se utilizan como anteriores, por ejemplo, en forma de arquitectura de red (¡densa “convolucional” en lugar de otra cosa!). Lo mismo ocurre con los previos de regularidad espacial utilizados para la segmentación semántica o problemas de flujo óptico / profundidad desde estéreo.

Por lo tanto, creo que la solución final para la mayoría de los problemas de visión será una combinación de antecedentes explícitos junto con componentes que exploten los datos de entrenamiento. Obviamente, la tendencia actual es mover la aguja hacia una mayor proporción de técnicas basadas en datos.

Otra pregunta que tengo es: ¿dónde termina el límite de la visión por computadora y dónde comienza la inteligencia artificial? Una vez que se resuelven varios problemas de visión pura, como la detección de objetos, la segmentación y la reconstrucción, y comenzamos a avanzar hacia la comprensión holística de la escena, creo que tendremos que ‘razonar’ sobre las diversas entidades presentes simbólicamente en las escenas. Entonces, dentro de diez años, ¡probablemente comenzarás a ver personas haciendo IA simbólica en CVPR! Y si bien eso involucrará una cantidad significativa de maquinaria de ML en el ‘nivel bajo’, todos esos documentos de los que hablarán serán árboles de búsqueda y lógica de enésimo orden, ¡eso no es ML en absoluto!

Las arquitecturas profundas son lo último en aprendizaje automático y es bastante claro que para tareas complicadas como la visión por computadora es muy difícil tener en cuenta manualmente cada pequeño detalle involucrado y programarlo, sin embargo, es mucho más inteligente (y más fácil) tener un algoritmo descubre cómo hacer una visión por computadora propia a través de los datos.

Si por “algoritmos de aprendizaje no automático” se refiere a la codificación manual de características, entonces la respuesta es definitivamente, sí, el éxito de las redes profundas es innegable (si tenemos datos y poder de cálculo).

Si observamos la historia de los algoritmos de Machine Learning, vemos que este campo está cambiando rápidamente, por lo que podríamos ver diferentes algoritmos (¡algunos muy nuevos y otros bastante antiguos!) Que pueden convertirse en sinónimos de aprendizaje automático para la población común, el tipo de éxito que disfrutan hoy las redes neuronales. Es fácil olvidar que no hace mucho, a finales de los 90 y principios de los 2000, el escenario era bastante diferente. Citaré Talking Machine – 3 Gurus de Aprendizaje Profundo sobre la Historia y el Futuro del Aprendizaje Automático, parte 1 donde Yoshua habló sobre su propia experiencia. “En mi propio laboratorio, tuve que torcer los brazos de mis alumnos para trabajar en redes neuronales. Mis alumnos tenían miedo de ver su papel rechazado, lo que sucedió bastante. “.

Creo que los nuevos algoritmos de aprendizaje automático volverán obsoletos a los antiguos, pero para tareas como la visión artificial, el aprendizaje automático seguirá siendo, sin duda, superior a la codificación ‘no ml’ o manual, dada esta era de datos abundantes.

Creo que la respuesta depende de cómo defina el límite entre el aprendizaje automático (ML) y el no ML. Si por ML quieres decir algo con una arquitectura profunda, entonces sí. Tenga en cuenta que defino esto para incluir también técnicas no estándar, siempre que sean básicamente un montón de módulos apilados de algún tipo. Sin embargo, si por ML te refieres a algo así como una red neuronal, entonces creo que la respuesta es sí, por el momento, sin embargo, descubriremos algoritmos más rápidos y precisos que las redes neuronales artificiales actuales. Finalmente redefiniremos una “neurona” artificial y luego llamaremos a una red de ellas una red neuronal simulada (SMM).