Además de la respuesta de Eren Golge, destacaría estos problemas:
Reconocimiento de escena
El reconocimiento de escena tiene como objetivo, dada una imagen, detectar el tipo de escena más probable al que pertenece esta entrada visual: aeropuerto, estadio, interior, etc. Consulte la Figura 1. por ejemplo, tipos de escenas interiores. Es uno de los temas más estudiados en el campo, y todavía no hay una solución ‘completa’. Pero ahora, hay una excepción del grupo MIT, pruebe esta demostración en vivo con sus propias imágenes y vea cuán exitosamente detecta el tipo de escena: Página del proyecto de aprendizaje de características profundas para el reconocimiento de escenas
Figura 1. 67 tipos de escenas interiores
- ¿Hasta dónde hemos llegado en términos de modelado de visión? ¿Cuánto entendemos acerca de cómo se procesa la información de la visión para formar una imagen?
- ¿Qué tan difícil es realizar trabajos de investigación en el campo de la informática teórica sin asistir a una universidad? ¿Cómo debería uno hacerlo?
- ¿Qué programa universitario de ciencias de la computación hace que sus estudiantes escriban más código?
- ¿Cuáles son las áreas de investigación actuales en informática, específicamente en las áreas de IA o LM o PNL?
- ¿Cuál es la forma más eficiente de transferir datos entre MATLAB y Python?
Reconocimiento de acciones
Hay millones de imágenes y videos en la web, y la mayoría de ellos están sujetos a ‘alguien haciendo algo’. Como resultado, existe una gran necesidad de detectar y reconocer el tipo de acción que ocurre en esas imágenes y videos. Siendo un tema de investigación candente, todavía queda mucho trabajo por hacer
Figura 2. Dada una imagen de una persona, el objetivo es detectar la acción realizada por esta persona.
Estimación de saliencia visual
En nuestra vida cotidiana, nuestros sensores son atacados por una enorme cantidad de estímulos y el problema es que nosotros, como humanos, no tenemos suficiente capacidad de cálculo para procesar todas esas entradas sensoriales. Con ese fin, hemos desarrollado capacidades atentas para procesar solo los insumos que nos ‘interesan’, descuidando el resto. La principal ventaja de dicha habilidad es que hacemos cálculos para el cerebro de manera eficiente, ahorrando tiempo y energía para ello. Aquí está la idea es implementar mecanismos similares para las computadoras. La estimación de la prominencia apunta a detectar las ubicaciones más probables que los humanos verán en una imagen. Vea la Figura 3 para ver un ejemplo, dada una imagen de una chica sexy, ¿cuáles son los lugares probables que buscarán Hombres y Mujeres?
Figura 3. Dada una imagen de una chica sexy, las ubicaciones probables en las que se verán hombres y mujeres son diferentes.
Si está interesado, puede leer más aquí:
Mapa de prominencia – Scholarpedia
Figura 4. Dada una escena visual, el objetivo es generar un mapa donde los valores más altos corresponden a mayores probabilidades de que los humanos vean en una imagen.
Estimación de Objetividad
La estimación de la objetividad está ganando cada vez más atención de la comunidad de visión por computadora en los últimos años. El enfoque tradicional para detectar un objeto en una imagen era deslizar una ventana sobre todas las ubicaciones posibles y todas las escalas posibles. Esto generalmente resultó en enormes costos de cómputo y muchos falsos positivos: dada una imagen de un tamaño típico, generalmente necesita procesar ~ 2.5-3 millones de ventanas para buscar un objeto. (Consulte la Figura 5 para ver un ejemplo).
Figura 5. Dada una imagen, el enfoque tradicional busca exhaustivamente objetos en todas las ubicaciones posibles.
Pero las cosas están cambiando: la pregunta es, dada una imagen, ¿podemos generar algunas ventanas candidatas y buscar objetos solo en esas ventanas? Esta área se llama estimación de objetividad y hasta ahora se han propuesto muchos métodos.
Figura 6. El truco más inteligente es generar un conjunto de ventanas candidatas y buscar objetos solo en esas ventanas. Esto ahorra poder de cálculo y evita falsos positivos.
Si está interesado, puede leer estas buenas publicaciones de blog sobre la estimación de la objetividad de Piotr Dollar:
- Generando Propuestas de Objetos
- Evaluación de propuestas de objetos
Relacionado
- La respuesta de Mert Kilickaya a ¿Cuáles son los documentos y artículos subyacentes sobre la visión por computadora para un estudiante principiante de EM?
- La respuesta de Mert Kilickaya a ¿Cuáles son los temas interesantes de tesis de licenciatura para aprendizaje automático, procesamiento de imágenes y visión por computadora?