¿Cuál es el mejor enfoque e implementación para la detección y reconocimiento de objetos en la actualidad?

El mejor enfoque para la detección de objetos en la actualidad es el uso de redes neuronales convolucionales (CNN) + redes de propuesta de región (RPN) que dan como resultado las llamadas CNN o R-CNN basadas en regiones. El R-CNN [1] más rápido con arquitectura de red neuronal residual [2] (ResNet) es actualmente el estado del arte en detección de objetos.

Puedes consultar los siguientes proyectos:

https://github.com/rbgirshick/py…
https://github.com/smallcorgi/Fa…

Las RPN proponen un pequeño conjunto de regiones con una alta probabilidad de contener un objeto, mientras que la CNN reconoce los objetos dominantes reales en las regiones propuestas. En resumen, el RPN decide dónde debe “mirar” la CNN. Es posible hacer una búsqueda de fuerza bruta, pero podría llevar años procesar un solo cuadro.

EDITAR : Para la detección de objetos en tiempo real (pero menos precisa) por YOLO [3].

Espero que esto ayude.

Notas al pie

[1] Hacia la detección de objetos en tiempo real con redes de propuestas regionales

[2] [1512.03385] Aprendizaje residual profundo para el reconocimiento de imágenes

[3] https://pjreddie.com/darknet/yol…

Aprendizaje automáticoArtificialReconocimiento de imágenesVisión

Related Content

¿Qué se entiende por agrupamiento jerárquico aglomerativo?

¿Cuál es la diferencia entre D3M y el aprendizaje profundo?

¿Cómo afectaría la homo / heteroscedasticidad al análisis de regresión?

Cómo implementar SVM yo mismo

¿Qué es el aprendizaje profundo para un principiante?

Cómo aprender sistema embebido

¿Puede explicar la optimización convexa sin matrices de arpillera y solo la segunda derivada?

More Interesting

Tengo un conjunto de puntos 3D y cada uno tiene una puntuación. ¿Cómo encuentro / busco un grupo denso de puntos de alta puntuación?

¿Cuál es la principal diferencia entre los problemas de clasificación y los problemas de regresión en el aprendizaje automático?

¿Podemos construir una máquina de visualización de sueños usando el procesamiento de señales?

¿Cuál es la diferencia entre redes neuronales y de creencias?

¿Cómo se aplica la inteligencia artificial a los problemas ambientales?

¿Cuál es la diferencia entre adaboost y el clasificador de perceptrones de una capa?

¿Qué tipo de aprendizaje automático debería usar Tinder para mejorar su número de coincidencias?

¿Cuál es el proceso de reconocimiento de voz (en resumen)?

¿Qué es una explicación intuitiva de los modelos de proceso gaussianos?

¿Cómo puedo diseñar una gran red neuronal?

¿Cuál es el futuro del aprendizaje de refuerzo profundo? ¿Es una buena idea comenzar un doctorado ahora trabajando en ataques adversos en sistemas RL?

¿Por qué necesitamos Python y Java para el aprendizaje automático mientras tenemos R?

¿Qué usos novedosos hay para el aprendizaje de refuerzo profundo?

¿Cómo lidian las personas con visión artificial con el sobreajuste?

¿Cuáles son las diferencias entre un científico de aprendizaje automático y un científico de datos?

Web Analytics