Puede probar CMU Sphinx – Kit de herramientas de reconocimiento de voz
Las principales ventajas sobre otros kits de herramientas como HTK es que con CMUSphinx no necesita entrenar a ningún modelo o dedicar su tiempo a ajustar la parte de ASR, generalmente obtiene un resultado listo para usar con modelos preexistentes con bastante buena precisión. CMUSphinx proporciona una gama de API en muchos lenguajes como C, C ++, Java, Python, puede seleccionar el idioma que prefiera.
Para procesar el archivo en inglés de EE. UU. Solo descargue el último código y modelos del sitio web de CMUSphinx (el modelo más preciso es En-US Generic), necesita un modelo acústico y de idioma y ejecute la decodificación:
- Mucha gente dice que el aprendizaje profundo y la inteligencia artificial son solo otro bombo. ¿Realmente habrá un futuro de IA?
- Cómo reconocer tu tipo de inteligencia
- ¿Qué arquitectura de redes neuronales funcionará mejor para un problema de anotación de imagen y por qué?
- Cómo hacer una IA que juegue un juego
- ¿Cuál podría ser la aplicación del aprendizaje automático en la industria de pagos?
ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav
pocketsphinx_continuous -infile file.wav -hmm en-us -lm en-us.lm.dmp -dict cmu07a.dic
Eso le daría la transcripción para analizar con sus herramientas.
Para una mejor precisión del resumen de audio, debe aprender a trabajar en redes. Lattice es un gráfico de posibles variantes de decodificación junto con los puntajes que le permite construir texto y extracción de significado más efectivos. Debido al hecho de que incorpora más resultados, puede capturar las cosas que necesita con mayor precisión.
Para más información sobre CMUSphinx lea el tutorial
Tutorial CMUSphinx para desarrolladores
Si necesita ayuda, no dude en preguntar en los foros de CMUSphinx:
CMU Sphinx / Foros / Foros
Para ver un ejemplo de cómo se utiliza CMUSphinx en un sistema práctico, compruebe qué tan recientemente se ha integrado CMUSphinx en Apache Stanbol, un marco para la extracción de contenido semántico:
Introducción – Motor de mejora de voz a texto