¿Qué conjuntos de datos se utilizan como puntos de referencia en los métodos de transcripción de voz / voz y qué métodos tienen los mejores resultados actuales?

Para la investigación práctica de ASR es importante tener no solo el conjunto de datos sino también un código para reproducir los resultados. Sin el resultado del código no será fácil reproducirlo con seguridad, hay demasiadas incógnitas.

Por lo tanto, es muy importante en estos días que tenga un conjunto de herramientas de reconocimiento de voz como Kaldi que proporcione tanto datos para investigaciones recientes como la implementación de los algoritmos modernos. Es por eso que Kaldi es tan popular en los trabajos de investigación de ASR modernos.

Puede encontrar varios recibos para los conjuntos de datos comunes en Kaldi y ejecutar sus propios experimentos en ellos. Lo mejor es que podrá reproducir los resultados con precisión y aplicar los algoritmos más exitosos, como los modelos gaussianos del subespacio entrenados de manera discriminatoria y las redes neuronales profundas entrenadas de manera discriminatoria. Esos dos proporcionan los mejores resultados hasta la fecha.

Algunos conjuntos de datos en Kaldi son totalmente gratuitos para descargar y usar, uno más razonable es tedlium, vea kaldi / egs / tedlium. Es un conjunto de datos para la transcripción de conversación TED, un buen conjunto de datos para experimentar en transcripciones de conversación de video.

Ver también

¿Cuáles son algunos conjuntos de datos de referencia para el reconocimiento de voz?

Por lo general, he visto que los sistemas de reconocimiento automático de voz (ASR) se basan en pruebas automatizadas que utilizan un conjunto de enunciados relacionados con tareas. ¿Qué diablos significa eso? Significa que el equipo de I + D alimentará a miles de grabaciones de personas que solicitan una cotización de acciones, o que dicen el nombre de una ciudad de los EE. UU., Leen cadenas de dígitos o caracteres alfanuméricos, o dan una respuesta de sí / no, o incluso usan un discurso sin restricciones, todo dentro de un idioma dado. Esos son conjuntos de datos de ejemplo que pueden usarse como puntos de referencia.

No estoy seguro de si también está pidiendo transcriptores en vivo que hagan el mismo trabajo, en cuyo caso todo lo que puedo sugerir es que las métricas utilizadas son generalmente alrededor de la tasa de error y los puntos de referencia miden RERR (reducción de la tasa de error relativa) en comparación con alternativas como una versión anterior del sistema.

Espero que sea lo que estás buscando.