¿Cuáles son los problemas más importantes en la visión por computadora? La tecnología cambia la vida futura

¿Cuáles son los problemas más importantes en la visión por computadora?

Además de la respuesta de Eren Golge, destacaría estos problemas:

Reconocimiento de escena

El reconocimiento de escena tiene como objetivo, dada una imagen, detectar el tipo de escena más probable al que pertenece esta entrada visual: aeropuerto, estadio, interior, etc. Consulte la Figura 1. por ejemplo, tipos de escenas interiores. Es uno de los temas más estudiados en el campo, y todavía no hay una solución ‘completa’. Pero ahora, hay una excepción del grupo MIT, pruebe esta demostración en vivo con sus propias imágenes y vea cuán exitosamente detecta el tipo de escena: Página del proyecto de aprendizaje de características profundas para el reconocimiento de escenas

Figura 1. 67 tipos de escenas interiores

Reconocimiento de acciones

Hay millones de imágenes y videos en la web, y la mayoría de ellos están sujetos a ‘alguien haciendo algo’. Como resultado, existe una gran necesidad de detectar y reconocer el tipo de acción que ocurre en esas imágenes y videos. Siendo un tema de investigación candente, todavía queda mucho trabajo por hacer

Figura 2. Dada una imagen de una persona, el objetivo es detectar la acción realizada por esta persona.

Estimación de saliencia visual

En nuestra vida cotidiana, nuestros sensores son atacados por una enorme cantidad de estímulos y el problema es que nosotros, como humanos, no tenemos suficiente capacidad de cálculo para procesar todas esas entradas sensoriales. Con ese fin, hemos desarrollado capacidades atentas para procesar solo los insumos que nos ‘interesan’, descuidando el resto. La principal ventaja de dicha habilidad es que hacemos cálculos para el cerebro de manera eficiente, ahorrando tiempo y energía para ello. Aquí está la idea es implementar mecanismos similares para las computadoras. La estimación de la prominencia apunta a detectar las ubicaciones más probables que los humanos verán en una imagen. Vea la Figura 3 para ver un ejemplo, dada una imagen de una chica sexy, ¿cuáles son los lugares probables que buscarán Hombres y Mujeres?

Figura 3. Dada una imagen de una chica sexy, las ubicaciones probables en las que se verán hombres y mujeres son diferentes.

Si está interesado, puede leer más aquí:
Mapa de prominencia – Scholarpedia

Figura 4. Dada una escena visual, el objetivo es generar un mapa donde los valores más altos corresponden a mayores probabilidades de que los humanos vean en una imagen.

Estimación de Objetividad

La estimación de la objetividad está ganando cada vez más atención de la comunidad de visión por computadora en los últimos años. El enfoque tradicional para detectar un objeto en una imagen era deslizar una ventana sobre todas las ubicaciones posibles y todas las escalas posibles. Esto generalmente resultó en enormes costos de cómputo y muchos falsos positivos: dada una imagen de un tamaño típico, generalmente necesita procesar ~ 2.5-3 millones de ventanas para buscar un objeto. (Consulte la Figura 5 para ver un ejemplo).

Figura 5. Dada una imagen, el enfoque tradicional busca exhaustivamente objetos en todas las ubicaciones posibles.

Pero las cosas están cambiando: la pregunta es, dada una imagen, ¿podemos generar algunas ventanas candidatas y buscar objetos solo en esas ventanas? Esta área se llama estimación de objetividad y hasta ahora se han propuesto muchos métodos.

Figura 6. El truco más inteligente es generar un conjunto de ventanas candidatas y buscar objetos solo en esas ventanas. Esto ahorra poder de cálculo y evita falsos positivos.

Si está interesado, puede leer estas buenas publicaciones de blog sobre la estimación de la objetividad de Piotr Dollar:

Generando Propuestas de Objetos

Evaluación de propuestas de objetos

Relacionado

La respuesta de Mert Kilickaya a ¿Cuáles son los documentos y artículos subyacentes sobre la visión por computadora para un estudiante principiante de EM?

La respuesta de Mert Kilickaya a ¿Cuáles son los temas interesantes de tesis de licenciatura para aprendizaje automático, procesamiento de imágenes y visión por computadora?

Ciencias de la computaciónComputaciónInvestigación en ciencias de laProcesamiento de imágenes