Cómo entrenar una red neuronal para detectar un objeto en un video que no estaba presente en el cuadro anterior

Normalmente, entrena la red neuronal (NN) en imágenes estáticas de los objetos, generalmente capturadas desde múltiples perspectivas para que el detector pueda ser robusto para esas transformaciones. Posteriormente, el NN entrenado se puede ejecutar en cada cuadro por segundo (fps).

Es por eso que la inferencia de baja latencia es muy importante para lograr un rendimiento en tiempo real. Para el tiempo real, necesita al menos 25 fps, lo que significa que es conveniente un retraso de 1/25 segundos o menos. Como el NN procesará cada cuadro independientemente de los otros cuadros, no tendrá problemas con la detección de un objeto que no estaba presente en el cuadro anterior.

Los métodos de detección de objetos como YOLO (solo se ve una vez) ejecutan inferencias en cada fotograma y pueden alcanzar un rendimiento en tiempo real debido a su naturaleza totalmente avanzada. Por lo tanto, considere usar una arquitectura como YOLO para su NN. Si desea aprovechar la naturaleza temporal de los cuadros de video, puede agregar seguimiento a su sistema mediante el cual el proceso de detección solo se ejecuta para activar un proceso de seguimiento. Por lo tanto, algunos cuadros se pueden omitir y durante los cuadros de salto, el seguimiento está activo y el detector está inactivo. Para mayor eficiencia, el seguimiento de baja latencia debe ejecutarse a una frecuencia alta, mientras que la detección de alta latencia debe ejecutarse a una frecuencia mucho más baja, por lo que se omiten algunos fotogramas.

El enfoque basado en el seguimiento como se describe anteriormente puede retrasar la detección de un objeto que no estaba previamente presente en el cuadro de video porque cuando está en el modo de seguimiento solo puede rastrear aquellos objetos que fueron recogidos por el detector en los cuadros anteriores, por lo tanto, el nuevo El objeto solo puede recogerse una vez que el detector está activo. El lado positivo de esta técnica es la velocidad y la escalabilidad, ya que el detector en sí mismo puede salirse del hilo principal y escanear periódicamente en busca de nuevos objetos para rastrear.

Espero que esto ayude.

More Interesting

¿Cómo lidiamos con conjuntos de datos muy grandes que no caben en la RAM?

En el aprendizaje de características, ¿cuál es la regla general para decidir el número de parches aleatorios y el número de iteraciones / épocas con respecto al número deseado de nodos / longitud de la característica?

¿Cómo lidiamos con el conjunto de datos que tiene 3 variables categóricas de 10 variables usando regresión logística?

¿Cuáles son las futuras áreas de investigación del aprendizaje automático y el reconocimiento de patrones para comenzar el doctorado y necesito algunas cosas buenas relacionadas con eso? como tesis doctorales y papel para estudiar?

¿Por qué estudiar el procesamiento del lenguaje natural?

En Tensorflow: ¿qué tipo de red neuronal debo usar?

Cómo descargar el conjunto de datos para el resumen de texto extractivo

Cómo combinar clasificador basado en reglas y SVM

¿Cuáles serán los 3 principales problemas de aprendizaje profundo en los próximos 5 años?

¿Cuáles son algunos de los requisitos previos necesarios para aprender el aprendizaje automático o la inteligencia artificial?

¿Qué métodos existen para combatir los problemas de gradiente de desaparición y explosión?

¿Qué medida de evaluación fuera de línea para los sistemas de recomendación se correlaciona mejor con los resultados de la prueba AB en línea?

¿Cuáles son los consejos para aprender el aprendizaje automático?

¿Por qué son escasos los autoencoders escasos?

¿Cuál es una explicación intuitiva de las redes residuales profundas?