¿Por qué los subtítulos generados automáticamente en YouTube son tan malos?

La función de subtítulos automáticos, que pretende hacer que los videos sean más accesibles para los espectadores sordos, así como para los que no hablan inglés, entre otros, se basa en la tecnología de reconocimiento de voz de YouTube que debutó a fines del año pasado.

Es una idea interesante, pero la tecnología está lejos de ser perfecta, y sus limitaciones han convertido algunos videos de YouTube con subtítulos automáticos en el hazmerreír de la web.

Acerca de

Las FALLAS automáticas de subtítulos de YouTube se refieren a subtítulos cerrados erróneos que a veces son producidos por la tecnología de reconocimiento automático de voz de Google para videos en YouTube. Desde el lanzamiento de la función de subtítulos automáticos en marzo de 2010, varias capturas de pantalla de transcripciones de YouTube absurdas o humorísticas, así como instancias de photoshop, han estado circulando en línea.

Origen

El 19 de noviembre de 2009, el equipo de YouTube de Google anunció el lanzamiento de una nueva función de subtítulos automáticos para videos seleccionados, utilizando el mismo algoritmo de reconocimiento de voz utilizado para traducir los mensajes de voz enviados a través de Google Voice. Aunque inicialmente el servicio solo estaba disponible para unos pocos canales asociados seleccionados, se lanzó para todos los usuarios de YouTube el 4 de marzo de 2010. El mismo día, se subieron a YouTube varios videos que demuestran la inexactitud de los subtítulos automáticos (que se muestra a continuación).

Ejemplos notables

A agosto de 2013, hay más de 116,000 resultados de búsqueda para “error de subtítulos” en YouTube.

Lo que escuchó YouTube:

Cuando se trata de subtítulos automáticos de YouTube, la principal preocupación es la calidad. Aunque el reconocimiento de voz tal como lo conocemos ha existido desde la década de 1990, la tecnología aún no ha alcanzado nada cerca del 100% de precisión.

Dado que la inteligibilidad de los subtítulos disminuye drásticamente incluso con una tasa de error del 2%, la mayoría de las veces los subtítulos generados por computadora de YouTube son incomprensibles. De hecho, los subtítulos automáticos a veces son tan incorrectos que se han convertido en una sensación cómica de Internet, lo que lleva a la creación del hashtag #captionfail.

Para la audiencia, los subtítulos pueden ser entretenidos, pero para los sordos a menudo son frustrantes. Imagínese realmente tratando de aprender algo de un video educativo,

El reconocimiento de voz de Youtube funciona muy bien cuando estás viendo algo que usa un ritmo estándar de conversación y la pronunciación es clara, como documentales. Pero para la mayoría de los videos, el discurso no es del ritmo estándar y está lleno de acentos tanto personales como tradicionales, lo que hace que sea muy difícil separar las palabras y reconocerlas. Por lo tanto, los subtítulos generados automáticamente a veces son muy pobres.

Creo que esta característica ha mejorado mucho desde que se introdujo por primera vez.

Veo muchas conferencias, entrevistas y debates, y dado que muchos de estos videos tienen una voz clara (a diferencia de aquellos con mucho ruido de fondo o música sobre el sonido), la función de subtítulos automáticos hace un trabajo bastante bueno. Yo diría que la mayoría de las palabras se identifican correctamente en un video con una clara voz en inglés, aunque a veces tiene problemas con los nombres y los lugares.

He visto videos donde el profesor tiene acento francés o alemán y todavía hace un buen trabajo.