¿Puedo usar películas con subtítulos como conjunto de datos de entrenamiento para el reconocimiento de voz?

Si seguro. Volcar el audio y las transcripciones correspondientes. Dado que la transcripción no es precisa, necesita algo como 10 veces más datos de los que necesitaría con una transcripción precisa. Entonces necesitas alrededor de 500 horas de discurso.

Si entrenas con Kaldi, hay un script llamado “find_bad_utts.sh”. Puede usar esta secuencia de comandos para filtrar la base de datos para seleccionar las transcripciones que parecen precisas. Puede hacer varias iteraciones de limpieza / reentrenamiento y debería converger en una buena base de datos. Tenga en cuenta que las películas modernas de Hollywood no tienen ningún discurso, vea Las palabras están perdiendo su poder. Ni siquiera Jason Bourne puede salvarlos ahora | Catherine Shoard

Si tiene una opción, es mejor comenzar con podcasts / programas de radio por ese motivo. Por lo general, tienen más voz, menos ruido y son más fáciles de alinear.

More Interesting

¿Cuáles son algunos buenos libros que tratan sobre ciencia de datos usando Python? ¿Qué versión de python es más adecuada para ello?

¿Cuál es la diferencia entre la informática social y la ciencia social computacional?

¿Quién puede sugerir un buen proyecto en el campo de la atención médica, la minería de datos y el aprendizaje automático que utilice el reconocimiento de imágenes?

Cómo extraer grandes conjuntos de datos de registros médicos

¿Vale la pena aprender inteligencia empresarial tradicional en el momento del big data?

¿Podría un trabajo en consultoría de Data Science en banca implicar viajes internacionales frecuentes y el salario más alto dentro del campo de Data Science?

Cómo lidiar con la falta de disponibilidad de datos o datos incorrectos para resolver problemas de ciencia de datos

¿Cuál es la diferencia entre análisis de datos, ingeniería de datos y científicos de datos?

Cómo desarrollar la intuición de datos

Cómo probar A / B una nueva aplicación de mensajería sin restringir con qué miembros pueden hablar (es decir, los miembros en el grupo de "prueba" aún pueden enviar mensajes a los miembros en el grupo de "control")

¿Cuál es el programa de estudios para la ciencia de datos?

¿Por qué, en su opinión, tantas compañías de investigación clínica se niegan a usar Python en lugar de SAS o R?

¿Existen buenos MOOC sobre inferencia causal, análisis de series temporales y diseño experimental?

¿Cuáles son las habilidades / cualidades que busca un pasante de ciencia de datos?

¿Cuáles son los requisitos para los estudios de posgrado en ciencias de gestión como la gestión de operaciones y las ciencias de decisión?