¿Cuáles son los siguientes pasos en el reconocimiento de voz después de extraer las funciones de MFCC?

(A2A) Teóricamente tendrás que entrenar un HMM-GMM para modelar estos cuadros. La suposición básica es que cada trama MFCC es generada por un estado HMM. La probabilidad de emisión para ese cuadro está determinada por el GMM asociado con ese estado. Las probabilidades de transición entre los HMM restringen las rutas que sus tramas pueden tomar a través de los estados HMM. Suponiendo que sus datos están etiquetados, es decir, sabe lo que se dice en cada enunciado, el proceso de capacitación involucra un algoritmo EM que básicamente hace lo siguiente: (1) asigna cada cuadro a un estado HMM (asignación difícil) o una distribución sobre los estados HMM ( asignación suave), (2) volver a estimar los parámetros del modelo para los GMM (medias y variaciones) y HMM (probabilidades de transición), y (3) repetir hasta la convergencia.

Este proceso puede sonar bastante simple, pero hay muchos detalles técnicos que se incluyen en él, por ejemplo, división gaussiana, vinculación de estado, agrupamiento de estado, entrenamiento de monófono vs. triphone, normalización de características, etc. Me parece que carece de los conocimientos básicos. en ASR (por ejemplo, ¿por qué necesita usar tanto HMM como GMM?) y quizás también aprendizaje automático. Por ejemplo, ¿sabes la diferencia entre un conjunto de entrenamiento y prueba? ¿Sabes cómo hacer validación cruzada para seleccionar los mejores hiperparámetros (hay muchos de ellos en un sistema ASR, y esto es muy importante)? Incluso si de alguna manera logras que este sistema funcione, es poco probable que aprendas algo sustancial. Si su objetivo es aprender sobre ASR en profundidad razonable, sugiero leer los primeros capítulos de este informe. Es una de las introducciones mejor escritas a los conceptos de ASR que he visto.

Dicho esto, si aún insiste en hacer esto, debe usar un kit de herramientas en lugar de codificar todo usted mismo. Permítanme repetir eso, ¡NO intente implementar un sistema ASR completo usted mismo! Esto es prácticamente imposible en su nivel actual de comprensión.

La forma más fácil de hacer esto es probablemente usar Kaldi. Solo necesita preparar sus datos de una manera que Kaldi pueda procesar y se encargará del resto. Revisa esta guía con cuidado y con suerte entenderás cómo encajan las cosas.

Otra opción es usar HTK. Esto es lo que usé cuando comencé con ASR. No está tan activamente desarrollado como Kaldi, pero creo que es más fácil para los principiantes y es más fácil obtener información sobre ASR. También tiene un tutorial escrito mucho mejor (HTK Book, el capítulo 1 cubre las teorías, el capítulo 3 es un tutorial práctico).

De ninguna manera soy un experto en el tema, pero esto es lo que sé sobre su pregunta después de 8 semanas de experiencia en investigación sobre Reconocimiento automático del habla (ASR) utilizando la herramienta de reconocimiento de voz Kaldi.
– Suponiendo que tiene un léxico y un modelo de lenguaje, y está tratando de construir un sistema ASR desde cero utilizando modelos acústicos GMM-HMM.
1 / Sus MFCC se modelan como gussianas. Define cuántos guassianos estás usando. Estos guasianos informan a las estadísticas (media, vairance, etc.) en cada teléfono en los enunciados que utilizó para obtener los MFCC. Puede buscar más información sobre la distribución gaussiana.
2 / Luego regresa e intenta volver a segmentar sus enunciados en el audio nuevamente para obtener ab (ya que usar el mismo tamaño de cuadro inicialmente no es correcto)
[ p.ej. después de recopilar números en sus enunciados en el primer intento, el sonido / m / por ejemplo a veces puede segmentarse correctamente otras veces incorrectamente, y como es el caso con problemas supervisados ​​de aprendizaje automático, generalmente es más fácil para su sistema deshabilitar entre vecinos teléfonos sobre entrenamiento]
3 / HMM intenta modelar la probabilidad de las transiciones entre fonemas. Una vez más, tendría que especificar el número de estados en ese modelo, así como cualquier otro parámetro necesario.

En pocas palabras, está tratando de construir un gráfico cuyos nodos se modelen con GMM y la transición entre nodos se modele con HMM.

4 / La métrica más popular para evaluar la precisión de un sistema ASR es Word Error Rate (WER). Puede alimentar las expresiones y la transcripción correspondiente y ver qué tan bueno es su sistema para escupir las palabras correctas. Puede google WER para más información.

– Hay varios modelos acústicos (Deep Neural Networks es uno) y, como puede imaginar, difieren en la forma en que manejan las características que se les suministran para producir diferentes resultados, WER, en consecuencia.

– Las redes neuronales profundas siempre son mejores que las GMM-HMM. Pero supongo que las salidas GMM-HMM son necesarias para procesar mejor DNN.

Dedique un tiempo a leer la Sección 2.1 y la Sección 2.2 del artículo de Mark Gales y Steve Young. Solía ​​tener su pregunta en mente y me pareció la mejor que explicaba las ideas de una manera fácil de entender. Si aún te confundes después de la lectura, házmelo saber y te ayudaré a elaborar más sobre eso.