Existen diferentes componentes del sistema de reconocimiento de voz donde puede implementar la robustez del ruido: procesamiento frontend, modelo, adaptación del modelo. El enfoque más poderoso sería combinarlos todos: sustracción espectral para el ruido que cambia lentamente, NMF para sonidos superpuestos rápidos, modelo entrenado de varios estilos para mejorar la robustez en el nivel del modelo y adaptación del modelo para mejorar los resultados basados en información posterior.
Este conjunto de características es bastante complejo de implementar a la vez, por lo que es mejor confiar en el kit de herramientas existente como CMU Sphinx – Speech Recognition Toolkit que las implementa y las integra en su sistema.
Si está interesado en el estado del arte en el reconocimiento de voz robusto y los detalles de los algoritmos involucrados, tiene sentido verificar los procedimientos del último Desafío de Reconocimiento y Separación del Habla ‘CHiME’.
– una competencia de la industria en reconocimiento de voz robusta donde los expertos presentan su mejor sistema. El mejor resultado allí se describe en una publicación MERL entrada a CHiME
- ¿Cuáles son los problemas de investigación abiertos en el aprendizaje automático para la detección de intrusos?
- Matemática Aplicada: ¿Cuáles son los diferentes métodos para pronosticar datos de series de tiempo?
- ¿Cuáles son los principales problemas con el uso de la codificación one-hot?
- ¿Qué es el LSTM?
- ¿Cuál es el significado del espacio latente?