Si seguro. Volcar el audio y las transcripciones correspondientes. Dado que la transcripción no es precisa, necesita algo como 10 veces más datos de los que necesitaría con una transcripción precisa. Entonces necesitas alrededor de 500 horas de discurso.
Si entrenas con Kaldi, hay un script llamado “find_bad_utts.sh”. Puede usar esta secuencia de comandos para filtrar la base de datos para seleccionar las transcripciones que parecen precisas. Puede hacer varias iteraciones de limpieza / reentrenamiento y debería converger en una buena base de datos. Tenga en cuenta que las películas modernas de Hollywood no tienen ningún discurso, vea Las palabras están perdiendo su poder. Ni siquiera Jason Bourne puede salvarlos ahora | Catherine Shoard
Si tiene una opción, es mejor comenzar con podcasts / programas de radio por ese motivo. Por lo general, tienen más voz, menos ruido y son más fáciles de alinear.
- ¿Los estadísticos viven en la tierra de la teoría, los aprendices de máquinas crean las soluciones prácticas y los científicos de datos son los que se ensucian las manos? Por supuesto, hay quienes viven en más de uno de estos mundos.
- ¿Cuál es el propósito del almacenamiento? ¿Cuáles son las ventajas?
- Como científico de datos, ¿es mejor especializarse en la recopilación o el análisis de datos?
- ¿Cómo es el mercado laboral de la ciencia de datos en Pune, India?
- ¿Qué es el software Tally? ¿Cómo ayuda a capturar los datos del canal?