Es difícil describir el estado del arte en un dominio tan complejo como la audición robotizada porque el problema es multidimensional inherentemente. El éxito de la tarea depende en gran medida de la cantidad de tecnologías integradas, por lo tanto, se trata más de la integración adecuada de los componentes adecuados que del uso de una solución todo en uno.
Pocos componentes importantes del reconocimiento de voz del robot son: localización de la fuente de sonido y robustez del entorno, reconocimiento de voz, adaptación del habla del usuario, identificación del hablante y, finalmente, procesamiento del lenguaje natural.
Cada dominio tiene sus propias herramientas y soluciones y, en realidad, es más importante combinarlas adecuadamente.
En primer lugar, una localización de sonido ayuda a filtrar el ruido y dividir las fuentes de varios altavoces. Aquí puede utilizar una gran cantidad de tecnología, desde la visión hasta la detección de movimiento simple para una mejor detección de la posición del altavoz. OpenCV es la mejor biblioteca para visión por computadora, pero también puede usar lidares u otros sensores. Cuanto mejor pueda localizar el sonido, más preciso será su reconocimiento.
- ¿Por qué no hay una red neuronal que diseñe redes neuronales personalizadas?
- ¿Cuáles son algunos usos interesantes de Open Mind Common Sense Reasoning ConceptNet?
- ¿Cuáles son los algoritmos de inteligencia artificial (IA) que todo estudiante de informática debe conocer?
- ¿Hay alguna referencia para C # como la documentación de Java AI?
- ¿Qué sistemas existen para el descubrimiento automatizado de constantes matemáticas interesantes?
A continuación, además de la localización del sonido, a menudo desea comprender la geometría de la sala, ya que ayuda a luchar adecuadamente con la reverberación en la señal de voz. Si comprende su posición, la geometría de la sala y la posición de la fuente del altavoz, puede cancelar el sonido de manera más efectiva con la formación de haces. Para la formación de haces uno podría recomendar dos paquetes de código abierto: Manyears y Hark.
Entonces, el reconocimiento de voz en sí mismo requerirá que tenga un kit de herramientas de reconocimiento de voz decente y eficiente como CMU Sphinx – Speech Recognition Toolkit, que es la mejor opción debido a su portabilidad y al conjunto de características
Otro componente que probablemente desee integrar es el reconocimiento de altavoz para identificar a su altavoz y no permitir que otros ordenen. Aquí necesita un kit de herramientas de biometría de voz. ALIZE es una buena opción.
Una vez que identificó al orador, es realmente importante implementar la adaptación para reconocer mejor la voz de un orador. La adaptación en CMUSphinx puede mejorar significativamente la precisión del reconocimiento y, combinada con la biometría de la voz, puede mejorar significativamente las capacidades del robot.
Por último, no debe tomar los resultados del reconocimiento como texto sin formato, debe admitir un diálogo entre el usuario y el robot. Un buen marco de diálogo podría ayudar aquí. Para considerar cómo se diseñan los marcos de diálogo, consulte RavenClaw – Olympus
Entonces, usted ve que el mejor sistema posible debe incluir un conjunto de tecnologías y crear un sistema así es todo un desafío. Sin embargo, los componentes de código abierto disponibles permiten una implementación bastante interesante.