¿Cuáles son los problemas más importantes en la visión por computadora?

Además de la respuesta de Eren Golge, destacaría estos problemas:

Reconocimiento de escena

El reconocimiento de escena tiene como objetivo, dada una imagen, detectar el tipo de escena más probable al que pertenece esta entrada visual: aeropuerto, estadio, interior, etc. Consulte la Figura 1. por ejemplo, tipos de escenas interiores. Es uno de los temas más estudiados en el campo, y todavía no hay una solución ‘completa’. Pero ahora, hay una excepción del grupo MIT, pruebe esta demostración en vivo con sus propias imágenes y vea cuán exitosamente detecta el tipo de escena: Página del proyecto de aprendizaje de características profundas para el reconocimiento de escenas

Figura 1. 67 tipos de escenas interiores

Reconocimiento de acciones

Hay millones de imágenes y videos en la web, y la mayoría de ellos están sujetos a ‘alguien haciendo algo’. Como resultado, existe una gran necesidad de detectar y reconocer el tipo de acción que ocurre en esas imágenes y videos. Siendo un tema de investigación candente, todavía queda mucho trabajo por hacer

Figura 2. Dada una imagen de una persona, el objetivo es detectar la acción realizada por esta persona.

Estimación de saliencia visual

En nuestra vida cotidiana, nuestros sensores son atacados por una enorme cantidad de estímulos y el problema es que nosotros, como humanos, no tenemos suficiente capacidad de cálculo para procesar todas esas entradas sensoriales. Con ese fin, hemos desarrollado capacidades atentas para procesar solo los insumos que nos ‘interesan’, descuidando el resto. La principal ventaja de dicha habilidad es que hacemos cálculos para el cerebro de manera eficiente, ahorrando tiempo y energía para ello. Aquí está la idea es implementar mecanismos similares para las computadoras. La estimación de la prominencia apunta a detectar las ubicaciones más probables que los humanos verán en una imagen. Vea la Figura 3 para ver un ejemplo, dada una imagen de una chica sexy, ¿cuáles son los lugares probables que buscarán Hombres y Mujeres?

Figura 3. Dada una imagen de una chica sexy, las ubicaciones probables en las que se verán hombres y mujeres son diferentes.

Si está interesado, puede leer más aquí:
Mapa de prominencia – Scholarpedia

Figura 4. Dada una escena visual, el objetivo es generar un mapa donde los valores más altos corresponden a mayores probabilidades de que los humanos vean en una imagen.

Estimación de Objetividad

La estimación de la objetividad está ganando cada vez más atención de la comunidad de visión por computadora en los últimos años. El enfoque tradicional para detectar un objeto en una imagen era deslizar una ventana sobre todas las ubicaciones posibles y todas las escalas posibles. Esto generalmente resultó en enormes costos de cómputo y muchos falsos positivos: dada una imagen de un tamaño típico, generalmente necesita procesar ~ 2.5-3 millones de ventanas para buscar un objeto. (Consulte la Figura 5 para ver un ejemplo).

Figura 5. Dada una imagen, el enfoque tradicional busca exhaustivamente objetos en todas las ubicaciones posibles.

Pero las cosas están cambiando: la pregunta es, dada una imagen, ¿podemos generar algunas ventanas candidatas y buscar objetos solo en esas ventanas? Esta área se llama estimación de objetividad y hasta ahora se han propuesto muchos métodos.

Figura 6. El truco más inteligente es generar un conjunto de ventanas candidatas y buscar objetos solo en esas ventanas. Esto ahorra poder de cálculo y evita falsos positivos.

Si está interesado, puede leer estas buenas publicaciones de blog sobre la estimación de la objetividad de Piotr Dollar:

  • Generando Propuestas de Objetos
  • Evaluación de propuestas de objetos

Relacionado

  • La respuesta de Mert Kilickaya a ¿Cuáles son los documentos y artículos subyacentes sobre la visión por computadora para un estudiante principiante de EM?
  • La respuesta de Mert Kilickaya a ¿Cuáles son los temas interesantes de tesis de licenciatura para aprendizaje automático, procesamiento de imágenes y visión por computadora?

Por supuesto, hay muchos temas diferentes que son bastante grandes e impulsados ​​por muchas personas. Sin embargo, por mi interés en la investigación, tengo los siguientes puntos;

  1. Reconocimiento de objetos: a pesar de que el aprendizaje profundo ha mejorado todas las curvas, todavía hay una gran brecha entre un humano y una computadora. En primer lugar, los humanos tienen mucho éxito en aprender muchas cosas diferentes con solo un par de casos, lo que es contrario a los modelos de reconocimiento de vanguardia que se basan en los llamados Big Data. Además, los humanos pueden generalizar creando abstracciones en mente. Es decir, si ve algo desde un punto de vista particular, aún puede reconocerlo incluso si el objeto se mueve, cambia su posición y posición. Es de nuevo una de las imperfecciones de los modelos de reconocimiento de objetos. Como se mostró recientemente, incluso cambiar un valor de píxel puede desviar drásticamente el modelo de reconocimiento de vanguardia.
  2. Aprendizaje no supervisado y semi-supervisado de cosas visuales: los humanos también pueden aprender cosas sin etiquetas y lo hacen continuamente . Por ejemplo, si sabe que los perros tienen cuatro patas que cuando ve un gato sin saberlo, puede adivinar que es un animal. Podemos decir que los seres humanos aprenden cosas y detectan patrones por sus relaciones y las etiquetan. Otro lado es la continuidad del aprendizaje. En general, especialmente si eres un niño pequeño, no dices vamos a aprender cosas. En cambio, su cerebro procesa información progresivamente, detecta patrones.

Como resultado, hay muchos problemas por resolver y estos son muy divertidos para estudiar pero difíciles de resolver. También debería decir mi humilde idea de que Deep Learning u otras contrapartes no son los problemas. Son (actualmente) soluciones exitosas, pero deberíamos centrarnos en problemas más exactos como los que señalé anteriormente.

Creo que el problema más importante en la visión por computadora es

  • Uso del conocimiento pasado para comprender la estructura de una escena: este conocimiento podría ser una combinación de física, memoria, sentido común, conciencia situacional y transferencia de aprendizaje de experiencias pasadas en otros dominios.

En este sentido, se convierte más en un problema de IA …

Esto pretende ser una respuesta muy general porque la mayoría de los problemas en la visión por computadora tienen intenciones similares.

Primero, queremos restaurar la información perdida al convertir 3d a 2d.

En segundo lugar, queremos crear conocimiento a partir de las imágenes 2D.