¿Cuál es el estado del arte en la “audición” de robots?

Es difícil describir el estado del arte en un dominio tan complejo como la audición robotizada porque el problema es multidimensional inherentemente. El éxito de la tarea depende en gran medida de la cantidad de tecnologías integradas, por lo tanto, se trata más de la integración adecuada de los componentes adecuados que del uso de una solución todo en uno.

Pocos componentes importantes del reconocimiento de voz del robot son: localización de la fuente de sonido y robustez del entorno, reconocimiento de voz, adaptación del habla del usuario, identificación del hablante y, finalmente, procesamiento del lenguaje natural.
Cada dominio tiene sus propias herramientas y soluciones y, en realidad, es más importante combinarlas adecuadamente.

En primer lugar, una localización de sonido ayuda a filtrar el ruido y dividir las fuentes de varios altavoces. Aquí puede utilizar una gran cantidad de tecnología, desde la visión hasta la detección de movimiento simple para una mejor detección de la posición del altavoz. OpenCV es la mejor biblioteca para visión por computadora, pero también puede usar lidares u otros sensores. Cuanto mejor pueda localizar el sonido, más preciso será su reconocimiento.

A continuación, además de la localización del sonido, a menudo desea comprender la geometría de la sala, ya que ayuda a luchar adecuadamente con la reverberación en la señal de voz. Si comprende su posición, la geometría de la sala y la posición de la fuente del altavoz, puede cancelar el sonido de manera más efectiva con la formación de haces. Para la formación de haces uno podría recomendar dos paquetes de código abierto: Manyears y Hark.

Entonces, el reconocimiento de voz en sí mismo requerirá que tenga un kit de herramientas de reconocimiento de voz decente y eficiente como CMU Sphinx – Speech Recognition Toolkit, que es la mejor opción debido a su portabilidad y al conjunto de características

Otro componente que probablemente desee integrar es el reconocimiento de altavoz para identificar a su altavoz y no permitir que otros ordenen. Aquí necesita un kit de herramientas de biometría de voz. ALIZE es una buena opción.

Una vez que identificó al orador, es realmente importante implementar la adaptación para reconocer mejor la voz de un orador. La adaptación en CMUSphinx puede mejorar significativamente la precisión del reconocimiento y, combinada con la biometría de la voz, puede mejorar significativamente las capacidades del robot.

Por último, no debe tomar los resultados del reconocimiento como texto sin formato, debe admitir un diálogo entre el usuario y el robot. Un buen marco de diálogo podría ayudar aquí. Para considerar cómo se diseñan los marcos de diálogo, consulte RavenClaw – Olympus

Entonces, usted ve que el mejor sistema posible debe incluir un conjunto de tecnologías y crear un sistema así es todo un desafío. Sin embargo, los componentes de código abierto disponibles permiten una implementación bastante interesante.

Esta es una pregunta interesante, con una respuesta simple y más compleja e interesante.

La respuesta simple es que no existe el “oído de robot”. Estás antropomorfizando a los robots al dar a entender que deberían detectar partes del espectro electromagnético (y las longitudes de onda de la presión del aire) que corresponden a lo que usan los humanos. En realidad, los robots usan cualquier detección que tenga sentido (¡ja!) Para su propósito. Para los robots más comunes en uso hoy en día, generalmente tiene más sentido ajustar el entorno para que emita señales en una forma más útil que las ondas de sonido audibles, en lugar de configurar el robot para que “escuche”. Por ejemplo, en lugar de escuchar el sonido que hace una máquina cuando termina de procesar un trabajo, dejamos que el robot lea la API conectada a Internet de la máquina o cualquier otra cosa. Por supuesto, hay muchos escenarios en los que no es posible alterar el entorno: si está construyendo un robot para contar las diferentes canciones de aves en un área, no puede hacer que todas las aves emitan datos XML con marca de tiempo …

Ok, suficiente semántica, definamos “audición de robot” como “cualquier forma de detección que se base principalmente en recibir ondas de presión” y analicemos eso en su lugar.

En mi opinión, el estado del arte en la audición robótica está en la localización de sonidos. Hay un montón de proyectos de investigación que utilizan micrófonos diferenciales para triangular la fuente de sonidos; uno de los más impresionantes es un sensor militar que puede detectar un disparo, orientar una cámara + sensor lidar a la fuente en menos de un segundo y regresar fuego. Ay.

En el dominio subacuático, hay muchas personas que dependen del seguimiento acústico del fondo marino para proporcionar referencias de localización. Esencialmente es una forma de SLAM, pero la parte compleja es responsable de la distorsión de las señales debido a los reflejos de trayectos múltiples, la opacidad del agua, los gradientes de temperatura y similares.

Intentaré desenterrar algunas referencias y otros ejemplos y actualizar esta respuesta en los próximos días.

El reconocimiento de voz es ciertamente una forma valiosa de audición robótica. Ciertamente para aquellos robots destinados a interactuar con humanos. Pero hay más para sonar que eso. El campo del análisis de la escena auditiva es una dirección que se está siguiendo.

Las aplicaciones simples, como las que monitorean los cambios en los sonidos ambientales (por ejemplo, un sistema de alarma), han existido por un tiempo. El siguiente paso es que los sistemas (por ejemplo, robots) comiencen a comprender el entorno en términos de sonidos, asociándolos con objetos y, en general, sean inteligentes sobre sus propiedades. Probablemente pueda saber si hay más de una persona caminando detrás de usted y si un tanque está lleno golpeándolo o si el aire acondicionado se ha detenido. Todo esto es valioso para su capacidad de comprender las cosas a su alrededor. La integración de flujos auditivos en la percepción del mundo de un robot también lo será.

Mientras que la visión del robot se ha convertido en un subcampo de la visión por computadora, centrándose en el mundo real, escenas dinámicas, la audición del robot aún no es muy diferente del reconocimiento del habla. Este campo es relativamente maduro con una amplia gama de sistemas comerciales, por ejemplo, Dragon Dictate, disponible. En la práctica, estos sistemas se transfieren mal a dominios en los que los robots se utilizan realmente, como la fabricación. En estos entornos, la entrada de voz se considera poco práctica debido al ruido de fondo.

Un desafío particular en la comprensión del habla del robot (después de que se han superado los desafíos de la audición) es poner las palabras a los eventos de percepción. Un trabajo interesante en esta área es el experimento del mundo wubble, por ejemplo, http://cbg.isi.edu/projects/wubb

More Interesting

Cómo construir IA para resolver este juego

¿Deep Learning anuncia el comienzo de la singularidad tecnológica?

¿Cómo se puede obtener una comprensión profunda sobre el aprendizaje automático, como publicar artículos sobre NIPS, ICML?

Con la IA / robots programados para hacer trabajos y las tiendas físicas disminuyendo, ¿podríamos lograr el futuro distópico del que solo hemos leído?

Cómo integrar un chatbot AI en la aplicación con una plataforma de atención al cliente (como Zendesk) y un centro de contacto en vivo para que los agentes puedan hacerse cargo de las conversaciones de chatbot cuando sea necesario

¿Cómo se relacionan los modelos gráficos probabilísticos (PGM) con el aprendizaje automático?

¿Cómo podemos hacer que las redes neuronales artificiales sean más similares a las redes neuronales biológicas?

¿Qué tipo de métodos de aprendizaje automático se utilizan en los asistentes personales artificiales actuales?

Si voy a la universidad en 2018 y estudiaré inteligencia artificial, ¿se creará la IA fuerte durante mi vida?

¿Cuál es el método posible para crear artificialmente / científicamente una nueva especie humana?

La IA se considera un reemplazo para los programadores. ¿Cuál es la tarea de programación más complicada / no trivial que la computadora ha realizado hasta ahora?

¿Cómo funciona Google Now?

¿Cómo pueden prepararse la sociedad y los gobiernos para el 30% de los empleos que se pronostica que se perderán para los robots en 2030?

¿Cuáles son las principales startups de IA en Israel?

¿Cómo sería posible que AI creara películas basadas en CGI basadas en IMDB TOP100?