¿Cuáles son los problemas abiertos en Computer Vision en los que se está investigando mucho?

La visión es más grande sin resolver incluso con el aumento del aprendizaje profundo (DL). La mayoría de los sistemas de visión hacen:

  1. Clasificación
  2. Clasificación y localización.

En la clasificación, la idea es reconocer las clases de objetos dominantes que están presentes en una escena como automóviles o edificios, por ejemplo. Esta área aún no está resuelta, pero DL funciona bien especialmente cuando se utilizan redes neuronales convolucionales (CNN).

La segunda categoría es un poco compleja porque la localización no es simple. El enfoque actual es recuperar un cuadro delimitador 2D alrededor de objetos detectados o reconocidos, pero el enfoque ideal es recuperar las ubicaciones 3D de dichos objetos. Las CNN o R-CNN basadas en la región son interesantes aquí porque son de última generación pero no son las más eficientes.

La recuperación de un cuadro delimitador 2D normalmente requiere una forma de regresión, especialmente si se supone que solo habrá un objeto en una escena dada a la vez. El módulo de regresión del cuadro delimitador puede alimentarse directamente de las características en un CNN, por lo que en tal caso el resultado consistirá en la etiqueta de clase y una predicción del cuadro delimitador.

La idea de localización de objetos utilizando enfoques 3D es ideal para tecnologías de automóviles robóticos y autónomos, pero esto está en gran medida sin resolver.

Luego, cuando observa los modelos de aprendizaje actuales, el aprendizaje de una sola vez en la visión también está en gran medida sin resolver porque los sistemas DL actuales normalmente requieren mucha información. También tiene un enfoque de aprendizaje de refuerzo para la visión, aún en un campo muy joven. En el aprendizaje por refuerzo, simplemente alimentaría a un robot con la alimentación real de la cámara y debería aprender a interactuar con el entorno para satisfacer objetivos determinados, como moverse y recoger objetos.

Tiene muchos otros problemas, como utilizar datos de video en lugar de imágenes estáticas / fijas. En tales casos, el sistema de visión puede aprender características espacio-temporales para el reconocimiento de movimiento que pueden ser importantes en los sistemas de reconocimiento de gestos, como los intérpretes de lenguaje de señas automatizados.

Por lo tanto, hay muchas áreas sin resolver en la visión por computadora, así como diseñar e implementar sistemas de visión robustos en tiempo real sigue siendo un desafío.

Espero que esto ayude.

Visión por computadora, Bueno, tenemos cámaras OpenCV, Matlab, 3D y muchas más para decir una computadora “¡Oye, mira! es nuestro hermoso mundo “. ¿Qué haría una computadora al respecto? tal vez sea como “Puedo ver imágenes. ¿Qué sigue? ”, la computadora podría decirle lo que ven, y no estoy hablando de nombrar las cosas en las imágenes que recogen.

Les recomendaré a todos los que estén interesados ​​en ver este tema, este excelente video de TED.

Gracias.