¿Qué sonidos vocales se deben grabar para crear una funcionalidad similar a SIRI de habla inglesa?

Hola, digamos que quieres que la máquina reconozca el idioma inglés, hablado por cualquier persona al azar. Este sistema requiere dos tipos de modelos, 1. modelos acústicos y 2. modelos de lenguaje. Los modelos acústicos se refieren a los “modelos de patrones de sonido básicos”. Por lo general, los modelos acústicos se crean utilizando la técnica HMM / GMM (modelo oculto de Markov / modelo de mezcla gaussiana).

Estos sistemas pueden reconocer solo aquellas palabras que están presentes en el vocabulario del sistema (existen alternativas a esto, usando el reconocimiento directo de fonemas, pero tiene mucha menos precisión).

Hay 2 formas de crear modelos acústicos:
1. Modelos a nivel de palabra
Si su vocabulario es (digamos) 10 a 100 palabras, entonces puede grabar esas palabras exactas en la voz de muchas personas (digamos 20). Puede crear un HMM para cada palabra.

2. Modelos a nivel de fonema
Para sistemas más generales (como SIRI), uno necesita modelar las unidades básicas de sonido (fonemas) de un idioma en particular. Vea los fonemas del inglés que se enumeran aquí http: //www.teachingenglish.org.u… Al usar estos modelos, se puede reconocer cualquier palabra en ese idioma, siempre que proporcione al sistema un mapeo entre las palabras y las secuencias de fonemas correspondientes. El único inconveniente es que necesita grabar una gran cantidad de datos de audio. Necesitaría grabar varias oraciones en inglés. En general, la base de datos debe estar fonéticamente equilibrada, es decir, todos los fonemas se producen en grandes cantidades, y también deben estar presentes muchas combinaciones de contexto de fonemas para su mejor modelado. Un ejemplo de tal base de datos es la base de datos TIMIT http://www.ldc.upenn.edu/Catalog…

Afortunadamente, algunos grupos han proporcionado una gran cantidad de datos hablados / modelos acústicos correspondientes libremente. Ver http://www.voxforge.org/

Este es un tema muy amplio, me gustaría orientarlo hacia paquetes de software específicos que puede usar para construir dicho sistema usted mismo.

1. CMUSphinx (completamente de código abierto) http://cmusphinx.sourceforge.net/

Muchas de sus preguntas serán respondidas si sigue su wiki / grupo en línea, etc.

2. HTK (no puede usar su reconocedor en un sistema comercial) http://htk.eng.cam.ac.uk/