Hay algunos problemas en la visión por computadora en los que ya tiene el modelo exacto de la geometría o el diseño del sensor. Por ejemplo, una matriz esencial relaciona dos vistas calibradas de la misma escena. Incluso puede aprender la estructura de esta relación a partir de muchos datos, pero ¿cuál es el punto? Por otro lado, probablemente debería usar métodos de aprendizaje discriminativos para encontrar los valores para esa matriz dadas dos imágenes de prueba, por supuesto, sujetas a las restricciones que representa la matriz esencial.
Por otro lado, hay muchos problemas en los que décadas de esfuerzo de modelado han sido superados por las llamadas canalizaciones “de extremo a extremo” que aprenden de los datos. Por ejemplo, aprender plantillas para el reconocimiento de objetos contra fondos desordenados. Pero incluso aquí hay lecciones de la investigación de modelos explícitos que se utilizan como anteriores, por ejemplo, en forma de arquitectura de red (¡densa “convolucional” en lugar de otra cosa!). Lo mismo ocurre con los previos de regularidad espacial utilizados para la segmentación semántica o problemas de flujo óptico / profundidad desde estéreo.
Por lo tanto, creo que la solución final para la mayoría de los problemas de visión será una combinación de antecedentes explícitos junto con componentes que exploten los datos de entrenamiento. Obviamente, la tendencia actual es mover la aguja hacia una mayor proporción de técnicas basadas en datos.
- ¿Cuándo se usaría un algoritmo gráfico?
- He practicado más de 300 preguntas de algoritmos en LintCode y LeetCode. He estado desempleado durante casi 9 meses y obtuve 8 entrevistas y todas fallaron en la prueba de codificación. Todavía no puedo recibir ninguna oferta. ¿Qué tengo que hacer?
- ¿Qué es el algoritmo TDIDT?
- ¿Qué es un algoritmo que calculará si se puede pagar la cantidad [math] n [/ math] si tenemos un suministro ilimitado de monedas para cada valor entre [math] a [/ math] y [math] b [/ math] ?
- Cómo alterar el rango de un bucle for dentro del bucle en Python
Otra pregunta que tengo es: ¿dónde termina el límite de la visión por computadora y dónde comienza la inteligencia artificial? Una vez que se resuelven varios problemas de visión pura, como la detección de objetos, la segmentación y la reconstrucción, y comenzamos a avanzar hacia la comprensión holística de la escena, creo que tendremos que ‘razonar’ sobre las diversas entidades presentes simbólicamente en las escenas. Entonces, dentro de diez años, ¡probablemente comenzarás a ver personas haciendo IA simbólica en CVPR! Y si bien eso involucrará una cantidad significativa de maquinaria de ML en el ‘nivel bajo’, todos esos documentos de los que hablarán serán árboles de búsqueda y lógica de enésimo orden, ¡eso no es ML en absoluto!