¿Cuál es el mejor reconocedor de voz de código abierto para usar? ¿Cómo los usas?

Puede probar CMU Sphinx – Kit de herramientas de reconocimiento de voz

Las principales ventajas sobre otros kits de herramientas como HTK es que con CMUSphinx no necesita entrenar a ningún modelo o dedicar su tiempo a ajustar la parte de ASR, generalmente obtiene un resultado listo para usar con modelos preexistentes con bastante buena precisión. CMUSphinx proporciona una gama de API en muchos lenguajes como C, C ++, Java, Python, puede seleccionar el idioma que prefiera.

Para procesar el archivo en inglés de EE. UU. Solo descargue el último código y modelos del sitio web de CMUSphinx (el modelo más preciso es En-US Generic), necesita un modelo acústico y de idioma y ejecute la decodificación:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav
pocketsphinx_continuous -infile file.wav -hmm en-us -lm en-us.lm.dmp -dict cmu07a.dic

Eso le daría la transcripción para analizar con sus herramientas.

Para una mejor precisión del resumen de audio, debe aprender a trabajar en redes. Lattice es un gráfico de posibles variantes de decodificación junto con los puntajes que le permite construir texto y extracción de significado más efectivos. Debido al hecho de que incorpora más resultados, puede capturar las cosas que necesita con mayor precisión.

Para más información sobre CMUSphinx lea el tutorial

Tutorial CMUSphinx para desarrolladores

Si necesita ayuda, no dude en preguntar en los foros de CMUSphinx:

CMU Sphinx / Foros / Foros

Para ver un ejemplo de cómo se utiliza CMUSphinx en un sistema práctico, compruebe qué tan recientemente se ha integrado CMUSphinx en Apache Stanbol, un marco para la extracción de contenido semántico:

Introducción – Motor de mejora de voz a texto

Related Content

Para que la IA describa una imagen tan buena como la humana, ¿cuál es la cantidad total de palabras en cuestión (sustantivos, adverbios, verbos, adjetivos)?

¿Cómo se hizo Wolfram Alpha? ¿Como funciona? ¿Cómo calcula el conocimiento no estructurado?

¿Las formas de vida artificial no estarían sujetas a la ley con respecto a crímenes como hurto y asesinato en primer grado?

¿La IA resultará en que las mujeres dominen la programación de computadoras en el futuro lejano?

¿Puede la IA predecir el mercado de valores en la India?

¿Cuáles son algunos programas / juegos populares que pueden aprender del usuario y mejorar automáticamente?

¿Cuáles son las diferencias clave entre Slate y Salon?

More Interesting

¿Uso de la IA en la teoría del control?

¿Qué tareas puede hacer IBM Watson actualmente y en el futuro?

Cómo construir un motor de chatbot como wit.ai o chatfuel

¿Cuál es la tesis central del libro de Douglas Hofstadter 'I Am a Strange Loop'?

¿Es LEGO Mindstorms una buena opción para un adulto que aprende inteligencia artificial y robótica?

¿Qué es el periodismo automatizado y qué empresas distintas de Narrative Science están trabajando en él?

Si una IA creara una 'obra de arte', ¿podría considerarse como arte? ¿La computadora o la persona que programó la IA se consideraría como el 'artista'?

¿Debería Apple comprar a IBM por su tecnología de inteligencia artificial?

¿En qué direcciones interesantes podrían desarrollarse los deportes virtuales de inteligencia artificial, libres de reglas humanas o físicas?

¿Qué características se deben agregar a DeepThought (Promethea AI)?

¿Cómo podemos hacer que las redes neuronales artificiales sean más similares a las redes neuronales biológicas?

¿Cómo aplican los fondos de cobertura el aprendizaje automático a los mercados financieros?

Soy un principiante en Python. Estoy interesado en el aprendizaje automático y la inteligencia artificial. Sé cosas básicas. ¿Debo saltar directamente a AI y ML?

¿Alguna vez has visto una pieza de matemática avanzada que haya demostrado ser útil para avanzar en el estado de la IA?

¿No son las redes neuronales solo máquinas de estado?

Web Analytics