¿Cuánto tecnología avanzada de ML necesitamos para generar subtítulos sobre la marcha en videos para cualquier idioma elegido?

Generar subtítulos sobre la marcha para videos no necesitaría un aprendizaje automático avanzado. Por el contrario, el principal problema con la subtitulación sería la conversión de voz a texto. Una vez que convertimos el discurso a texto de manera eficiente, se vuelve más fácil subtitularlo. Entonces, ¿de dónde viene el aprendizaje automático en todo esto?

Se está investigando mucho sobre el procesamiento del habla y cómo usar eficientemente el aprendizaje automático para realizar la conversión de voz a texto de manera eficiente. Los principales problemas tratados en este aspecto son encontrar nombres propios y cómo tratarlos. Supongamos que hemos convertido el audio a texto. Ahora digamos que necesitamos subtítulos en un idioma diferente. Entonces, necesitamos traducir el texto que tenemos a un idioma diferente. El aprendizaje automático puede desempeñar un papel importante en esto.

Después de generar el texto en el idioma deseado, necesitamos cerrar el subtítulo. Podemos etiquetar el texto con marcas de tiempo mientras los convertimos de audio a texto. Estas marcas de tiempo se pueden usar para cerrar los subtítulos del texto con el archivo de video. Otra forma de hacer esta alineación fonética. Está alineando el texto con los fonemas respectivos cuando se reproduce el audio. Ahora, ¿cómo hacer todo esto sobre la marcha? Convertir el audio en texto y luego traducirlo y subtitularlo lleva tiempo. Por lo tanto, necesitamos almacenarlo en el búfer por algún tiempo y luego cerrar el subtítulo.

Okay. Todo esto esta bien. ¿Dónde nos encontramos con respecto a este problema? Hay varios avances diarios en el aprendizaje automático para el procesamiento de voz y la traducción. Tenemos varios módulos funcionales en línea para procesamiento de voz y traducción. Esos se pueden usar para construir un sistema de subtítulos cerrados que funcione completamente. En España, se construyó un motor de subtitulación que subtitula sobre la marcha las sesiones del parlamento.

Referencia: Página en Google

Aprendizaje automáticoInteligencia ArtificialTendencias tecnológicas