¿Cuál es el mejor reconocedor de voz de código abierto para usar? ¿Cómo los usas?

Puede probar CMU Sphinx – Kit de herramientas de reconocimiento de voz

Las principales ventajas sobre otros kits de herramientas como HTK es que con CMUSphinx no necesita entrenar a ningún modelo o dedicar su tiempo a ajustar la parte de ASR, generalmente obtiene un resultado listo para usar con modelos preexistentes con bastante buena precisión. CMUSphinx proporciona una gama de API en muchos lenguajes como C, C ++, Java, Python, puede seleccionar el idioma que prefiera.

Para procesar el archivo en inglés de EE. UU. Solo descargue el último código y modelos del sitio web de CMUSphinx (el modelo más preciso es En-US Generic), necesita un modelo acústico y de idioma y ejecute la decodificación:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav
pocketsphinx_continuous -infile file.wav -hmm en-us -lm en-us.lm.dmp -dict cmu07a.dic

Eso le daría la transcripción para analizar con sus herramientas.

Para una mejor precisión del resumen de audio, debe aprender a trabajar en redes. Lattice es un gráfico de posibles variantes de decodificación junto con los puntajes que le permite construir texto y extracción de significado más efectivos. Debido al hecho de que incorpora más resultados, puede capturar las cosas que necesita con mayor precisión.

Para más información sobre CMUSphinx lea el tutorial

Tutorial CMUSphinx para desarrolladores

Si necesita ayuda, no dude en preguntar en los foros de CMUSphinx:

CMU Sphinx / Foros / Foros

Para ver un ejemplo de cómo se utiliza CMUSphinx en un sistema práctico, compruebe qué tan recientemente se ha integrado CMUSphinx en Apache Stanbol, un marco para la extracción de contenido semántico:

Introducción – Motor de mejora de voz a texto