CMU Sphinx – Speech Recognition Toolkit es un buen punto de partida para aprender más sobre el procesamiento del habla y el aprendizaje automático, puede comenzar rápidamente con demostraciones existentes e implementar cosas interesantes para aprender más sobre el reconocimiento del habla y áreas relacionadas. Existe bastante documentación disponible para los desarrolladores y puede ayudarlo a comenzar rápidamente.
CMUSphinx ha sido la base de muchos cursos de reconocimiento de voz en diferentes universidades. Hay pocos proyectos que incluso personas sin experiencia podrían emprender en 3 meses:
1) Crea modelos para tu idioma local
2) Cree voz TTS para su idioma desde el audiolibro
2) Agregue soporte para modelos de lenguaje compactos basados en trie
3) Implementar chatbot de voz
4) Escribir software para recopilar automáticamente diccionarios de pronunciación de wikipedia
- ¿Cómo se puede utilizar el aprendizaje automático en el análisis de tendencias?
- ¿Qué tan perspicaz es el artículo de arXiV: [1504.00641] Una teoría probabilística del aprendizaje profundo? ¿Extiende nuestra comprensión del aprendizaje profundo y presenta un marco unificador?
- ¿Cómo escapa / resiste una red neuronal profunda a la maldición de la dimensionalidad?
- Hablando intuitivamente, ¿cuál es la diferencia entre la estimación bayesiana y la estimación de máxima verosimilitud?
- Cómo usar la red neuronal convolucional en sus proyectos
También hay proyectos de investigación más serios:
1) Implemente la estimación de confianza para la decodificación gramatical
2) Implementar capacitación a gran escala basada en la red
3) Mejorar el marco de posprocesamiento para la asignación de puntuación y la capitalización.
Si necesita ayuda en cualquiera de los proyectos, no dude en consultar Únase a nuestra comunidad