Porque las personas no solo lanzan una red neuronal profunda fuera de la caja a una señal de voz y esperan que funcione bien. Como señala correctamente, las señales acústicas como el habla dependen del tiempo, por lo que solo tratar de clasificar los fonemas cuadro por cuadro con un DNN logra malos resultados.
Lo que logra buenos resultados actualmente es introducir las salidas de un DNN en un modelo híbrido oculto de Markov. Un HMM se combina con una distribución de emisiones, y los sistemas tradicionales utilizan GMM sobre alguna representación característica de un marco de discurso para modelar estas probabilidades de emisión. Se produjo un gran avance cuando las personas (muy inteligentes) se dieron cuenta de que sería posible convertir la distribución posterior p (y | x) modelada por DNN en una pseudo probabilidad verosímil p (x | y), y alimentarla al HMM [1 ] Ese es actualmente (que yo sepa) el estado actual de la técnica, usando redes cada vez más poderosas (incluyendo convoluciones, cuellos de botella, etc.) para estimar esa pseudo probabilidad.
Hay mucha investigación en curso para construir canales de aprendizaje profundo de extremo a extremo para el reconocimiento de voz, pero esos no son de grado comercial (de nuevo, que yo sepa). Algunas ideas usan RNNs para modelar la dependencia temporal [2, 3], y WaveNet [4] de Google también se puede usar para el reconocimiento de voz, aunque no estoy seguro de cómo se comparan los resultados con los enfoques de vanguardia dedicados.
- ¿Cómo convierte Quora la URL en texto legible?
- ¿Cómo se usa la teoría de categorías en autómatas celulares?
- ¿Cuál es la importancia o los beneficios de un algoritmo informático para una persona normal que no es un programador informático?
- ¿Qué tan importante es la interpretabilidad para un modelo en Machine Learning?
- ¿Cuál es mejor CS en BIT mesra o CS en MNIT Jaipur?
[1] – http://ieeexplore.ieee.org/abstr…
[2] – [1402.1128] Arquitecturas de redes neuronales recurrentes basadas en memoria a largo plazo para reconocimiento de voz de vocabulario grande
[3] – Ampliar el reconocimiento de voz de extremo a extremo
[4] -https: //pdfs.semanticscholar.org…