¿Cuál es el mejor algoritmo para implementar un reconocimiento de voz robusto en entornos ruidosos?

Existen diferentes componentes del sistema de reconocimiento de voz donde puede implementar la robustez del ruido: procesamiento frontend, modelo, adaptación del modelo. El enfoque más poderoso sería combinarlos todos: sustracción espectral para el ruido que cambia lentamente, NMF para sonidos superpuestos rápidos, modelo entrenado de varios estilos para mejorar la robustez en el nivel del modelo y adaptación del modelo para mejorar los resultados basados en información posterior.

Este conjunto de características es bastante complejo de implementar a la vez, por lo que es mejor confiar en el kit de herramientas existente como CMU Sphinx – Speech Recognition Toolkit que las implementa y las integra en su sistema.

Si está interesado en el estado del arte en el reconocimiento de voz robusto y los detalles de los algoritmos involucrados, tiene sentido verificar los procedimientos del último Desafío de Reconocimiento y Separación del Habla ‘CHiME’.
– una competencia de la industria en reconocimiento de voz robusta donde los expertos presentan su mejor sistema. El mejor resultado allí se describe en una publicación MERL entrada a CHiME

Related Content

Cómo crear un motor de búsqueda médica utilizando el aprendizaje automático en Java

¿Cuáles son las cosas básicas que debe saber un ingeniero informático antes de aprender sobre ciencia de datos y aprendizaje automático?

¿Cuáles son las relaciones entre diversidad y precisión en los enfoques de conjunto?

¿Qué piensa Yoshua Bengio sobre los Algoritmos de aprendizaje de Alineación de retroalimentación?

¿Cuál es un ejemplo ilustrativo donde LDA y SVM dan límites de decisión diferentes?

¿Es el código QR una tecnología del futuro o ha sido totalmente ignorado?

¿Cómo afectarán los drones a los robos?

More Interesting

Si la tasa de predicción de un algoritmo de aprendizaje automático mantiene porcentajes bajos (50% a 60%) en un conjunto de datos, ¿cómo puedo mejorar?

¿Cuáles son los casos de uso (existentes o futuros) en los que el uso de la Red Adversaria Generativa es particularmente interesante?

En el análisis de sentimiento binario, ¿es razonable tratar el texto de baja confianza como una tercera clase neutral?

¿Cómo afecta su área de investigación de maestría (CS) a su carrera? ¿Y cuáles son las áreas más lucrativas?

¿Cuáles son algunos problemas o preguntas de la vida real que el aprendizaje automático ha resuelto y que no se pueden resolver adecuadamente por otros medios?

Cómo calcular la huella de memoria de un modelo particular de aprendizaje profundo

He realizado el curso de aprendizaje automático de Andrew Ng pero no lo he programado. ¿Debo decir que tengo los conocimientos básicos?

¿Son útiles los procesos jerárquicos de Dirichlet en la práctica?

¿Es el aprendizaje automático una mejor forma o técnica para comprender los datos y hacer pronósticos que las estadísticas?

¿Cuáles son los beneficios de usar ReLU sobre softplus como funciones de activación?

¿Existe una lista de conferencias de minería de datos / aprendizaje automático organizadas en los Estados Unidos?

¿Cuál es la mejor manera de implementar un SVM usando Hadoop?

Quiero construir una copia casi perfecta de Eva de ex machina, entonces, ¿qué curso o área de informática necesito aprender profundamente?

Los algoritmos de ML escritos en Java funcionan bien para un conjunto de datos más pequeño. Para un conjunto de datos grande, ¿cómo podemos escalar estos algoritmos? ¿Necesitamos buscar algoritmos distribuidos / mapas distribuidos en memoria / NOSQL / archivos para leer y escribir grandes conjuntos de datos o hay alguna buena API?

¿Cómo se entrenan las redes estocásticas generativas?

Web Analytics