¿Por qué la comunidad de Computer Vision es hostil a las ideas simples? La tecnología cambia la vida futura

¿Por qué la comunidad de Computer Vision es hostil a las ideas simples?

Cuanto más trabajo con la tecnología Computer Vision, más entiendo por qué la comunidad es hostil a las ideas simples.

Como principiante, tuve una idea muy simple que aumentaría el rendimiento del algoritmo en mi trabajo (estaba conectado con SIFT y combinaba dos imágenes). La mayoría de las veces seleccioné varios ejemplos y luego probé mis nuevas ideas, basadas principalmente en la relación geométrica entre puntos clave. Y después de algunos trabajos, con ideas simples, logré obtener una mejor coincidencia 🙂 Estaba pensando que debería proporcionar un buen impulso en un conjunto de prueba más grande. Pero desafortunadamente la mayoría de las veces no lo hace. ¿Por qué? Lo llamo ‘sobreajuste’, no por modelo sino por mí mismo. Acabo de encontrar una solución para una pequeña prueba de imágenes, pero no funciona para otros casos.

Otro ejemplo es la detección de pieles, tomando un ejemplo simple para stackoverflow.

Aquí el usuario simplemente detecta la piel usando intervalos simples en el espacio de color HSV. Pero, ¿qué pasa si las condiciones naturales son diferentes (iluminación, etc.), el fondo incluirá un color similar al de la piel o (lo peor) la persona será negra? Por supuesto, ya no funcionaría. Deberíamos pensar en todos los casos posibles para la ‘detección de la piel’, ¡pero esto es imposible!

Lo malo de las ideas simples es que, por lo general, no se generalizan bien en las pruebas a gran escala, ya que la mayoría de las veces se descubrieron buscando varios ejemplos y solo tienen un ‘rango de valores’ cuando funcionan (como la detección de la piel). Actualmente, la tendencia principal que ayuda con la generalización es Machine Learning, que funciona mucho mejor que las reglas codificadas.

Inteligencia ArtificialInvestigación en ciencias de la computaciónPregunta que contiene suposicionesProcesamiento de imágenesVisión por computadora