Para la investigación práctica de ASR es importante tener no solo el conjunto de datos sino también un código para reproducir los resultados. Sin el resultado del código no será fácil reproducirlo con seguridad, hay demasiadas incógnitas.
Por lo tanto, es muy importante en estos días que tenga un conjunto de herramientas de reconocimiento de voz como Kaldi que proporcione tanto datos para investigaciones recientes como la implementación de los algoritmos modernos. Es por eso que Kaldi es tan popular en los trabajos de investigación de ASR modernos.
Puede encontrar varios recibos para los conjuntos de datos comunes en Kaldi y ejecutar sus propios experimentos en ellos. Lo mejor es que podrá reproducir los resultados con precisión y aplicar los algoritmos más exitosos, como los modelos gaussianos del subespacio entrenados de manera discriminatoria y las redes neuronales profundas entrenadas de manera discriminatoria. Esos dos proporcionan los mejores resultados hasta la fecha.
- He estado aprendiendo la red neuronal de retroalimentación y la propagación hacia atrás durante 3 meses y todavía no puedo entenderlo, ¿qué debo hacer?
- ¿Por qué el aprendizaje profundo no tiene un mínimo local?
- ¿Cuál es el mejor método de aprendizaje automático para predecir los datos de prueba una vez que conozco los datos de entrenamiento y la etiqueta de entrenamiento?
- ¿Cuáles son las funciones básicas del olfato? Al igual que los datos visuales se pueden aproximar en una base 3D (RGB, HSI, etc.), ¿se puede aproximar el olor como una suma lineal de unos pocos olores básicos?
- ¿Qué significa decir que dos clasificadores son independientes?
Algunos conjuntos de datos en Kaldi son totalmente gratuitos para descargar y usar, uno más razonable es tedlium, vea kaldi / egs / tedlium. Es un conjunto de datos para la transcripción de conversación TED, un buen conjunto de datos para experimentar en transcripciones de conversación de video.
Ver también
¿Cuáles son algunos conjuntos de datos de referencia para el reconocimiento de voz?