¿Por qué los modelos acústicos DNN / HMM son mejores que GMM / HMM?

Los modelos de DNN son mejores clasificadores que los GMM, pueden generalizarse mucho mejor con un número menor de parámetros sobre distribuciones complejas.

Modelan distribuciones de diferentes clases en conjunto, esto se llama aprendizaje “distribuido” o, más apropiadamente, aprendizaje “atado”. En GMM usted modela cada senone por separado con un conjunto separado de GMM, en DNN sus características se clasifican juntas y se calcula la distribución de senone posteriores.

En su confusión con las alineaciones, tome nota de que la alineación para el entrenamiento se calcula para todo el enunciado, pero el contexto para el clasificador es diferente. Los DNN pueden modelar un contexto mucho más largo. En el sistema GMM es típico modelar simplemente 7–9 cuadros en bruto, los modelos GMM no mejoran si aumenta el contexto debido a la convexidad de la distribución que modelan. En el sistema DNN es común considerar el contexto de 40 cuadros en bruto y los modelos DNN no tienen ningún problema con eso. Incluso puede usar redes recurrentes como LSTM para modelar contextos muy largos. Con mucho más contexto, puede predecir las clases de senone mucho mejor.

Los DNN también pueden integrar diferentes características adicionales de entrada, como i-vectores dependientes del altavoz o retardo de reverberación de una manera muy simple. Simplemente agregue el vector a las características de entrada.

Los modelos DNN realmente pueden predecir la alineación por sí solos, en el reciente enfoque de reconocimiento de voz de extremo a extremo no necesita GMM, simplemente configura las características de origen y los objetivos y DNN aprende por sí mismo. Verifique srvk / eesen para más detalles.

En el aprendizaje automático, ¿son siempre más datos mejores que mejores algoritmos?

¿Cuál es la diferencia entre aprendizaje automático, minería de datos y recuperación de información?

¿Por qué parece que hay capas y capas de significado más profundo ocultas bajo la simple forma de escritura de Ernest Hemingway?

¿Qué algoritmo funciona mejor para bandidos adversarios?

¿Por qué se usa Python para el aprendizaje profundo si es tan lento?

Qué ingeniería es mejor. Ingeniería informática o Electrónica e Instrumentación?

La verdadera naturaleza del discurso ni en gaussiano ni en markoviano. Por lo tanto, GMMHMM es solo una aproximación para hacer que el modelo sea rastreable y solucionable. Hoy, con suficientes datos supervisados disponibles, el progreso de DNN incluyendo CTC, hardware de GPU para la optimización, etc., se puede usar el poder de NN para entrenar un modelo discriminatorio en lugar de uno generativo. Además, NN donde debería ser una aproximación de función general no está limitada por sesgo (si el número de unidades es ilimitado).

Nickolay Shmyrev

More Interesting

¿Por qué nadie recomienda JavaScript / Node.js como lenguaje para el aprendizaje automático o el análisis de datos?

¿Hay alguna debilidad en el uso de la agrupación máxima y la agrupación promedio?

¿Cómo es usar las API de servicios cognitivos de Microsoft?

¿Cuál es el número mínimo de árboles que debo usar en un bosque aleatorio?

¿En qué condiciones funcionaría un algoritmo lento más rápido que un algoritmo rápido?

Cómo leer los datos de un directorio en Tensorflow

¿Es inevitable la multicolinealidad en los datos experimentales? Si no, ¿en qué condiciones podemos esperar multicolinealidad?

¿Cómo calificaría un buen algoritmo, buenos datos, buena ingeniería de características en términos de efectividad para el aprendizaje automático?

¿Alguien siente que la programación de sistemas tradicionales es muy diferente del aprendizaje automático?

¿Cuáles son algunas aplicaciones de la vida real del aprendizaje automático además de las aplicaciones relacionadas con la web?