¿Qué conjuntos de datos se utilizan como puntos de referencia en los métodos de transcripción de voz / voz y qué métodos tienen los mejores resultados actuales?

Para la investigación práctica de ASR es importante tener no solo el conjunto de datos sino también un código para reproducir los resultados. Sin el resultado del código no será fácil reproducirlo con seguridad, hay demasiadas incógnitas.

Por lo tanto, es muy importante en estos días que tenga un conjunto de herramientas de reconocimiento de voz como Kaldi que proporcione tanto datos para investigaciones recientes como la implementación de los algoritmos modernos. Es por eso que Kaldi es tan popular en los trabajos de investigación de ASR modernos.

Puede encontrar varios recibos para los conjuntos de datos comunes en Kaldi y ejecutar sus propios experimentos en ellos. Lo mejor es que podrá reproducir los resultados con precisión y aplicar los algoritmos más exitosos, como los modelos gaussianos del subespacio entrenados de manera discriminatoria y las redes neuronales profundas entrenadas de manera discriminatoria. Esos dos proporcionan los mejores resultados hasta la fecha.

Algunos conjuntos de datos en Kaldi son totalmente gratuitos para descargar y usar, uno más razonable es tedlium, vea kaldi / egs / tedlium. Es un conjunto de datos para la transcripción de conversación TED, un buen conjunto de datos para experimentar en transcripciones de conversación de video.

Ver también

¿Cuáles son algunos conjuntos de datos de referencia para el reconocimiento de voz?

Aprendizaje automáticoConjuntos de datosInteligencia ArtificialProcesamiento de lenguaje naturalReconocimiento devoz

¿Son los sistemas de recomendación actuales lo mejor que podemos hacer?

¿Qué formación matemática se necesita para aprender Deep Learning?

¿Por qué las GAN han tenido menos éxito con el texto que con las imágenes y el habla?

¿Qué tan exitoso ha sido el modelo tópico LDA en la categorización de imágenes?

¿Qué herramientas, algoritmos o estructuras de datos usaría para construir un algoritmo de “Temas de tendencias” para una transmisión de alta velocidad?

¿Cuáles son los documentos más influyentes en el mundo del big data? ¿Por qué?

Por lo general, he visto que los sistemas de reconocimiento automático de voz (ASR) se basan en pruebas automatizadas que utilizan un conjunto de enunciados relacionados con tareas. ¿Qué diablos significa eso? Significa que el equipo de I + D alimentará a miles de grabaciones de personas que solicitan una cotización de acciones, o que dicen el nombre de una ciudad de los EE. UU., Leen cadenas de dígitos o caracteres alfanuméricos, o dan una respuesta de sí / no, o incluso usan un discurso sin restricciones, todo dentro de un idioma dado. Esos son conjuntos de datos de ejemplo que pueden usarse como puntos de referencia.

No estoy seguro de si también está pidiendo transcriptores en vivo que hagan el mismo trabajo, en cuyo caso todo lo que puedo sugerir es que las métricas utilizadas son generalmente alrededor de la tasa de error y los puntos de referencia miden RERR (reducción de la tasa de error relativa) en comparación con alternativas como una versión anterior del sistema.

Espero que sea lo que estás buscando.

Jeff Foley

More Interesting

Cómo crear la línea de regresión de mínimos cuadrados (error cuadrático medio mínimo) en R

Cómo hacer ingeniería de características para la regresión no lineal correcta

¿Qué significa Wabbit?

¿Cómo genera fastText un vector para una palabra que no está en el modelo pre-entrenado?

¿Qué es una explicación intuitiva de los modelos de mezcla gaussiana?

¿Cuál es la diferencia entre el curso de aprendizaje automático de Andrew Ng en Coursera y el curso AZ ML en Python y R en Udemy?

¿Para qué se puede utilizar el análisis de la marcha?

¿Cuál es la relación entre el aprendizaje automático y la minería de datos?

¿Cuál es el significado del espacio latente?