Reconocimiento de voz: ¿algunos idiomas hablados son más fáciles de reconocer por una máquina?

No es el caso de que el inglés sea el único idioma bien investigado. Existe un gran interés en el reconocimiento del árabe y el mandarín del proyecto DARPA Gale, por lo que el árabe está muy bien investigado. El nuevo proyecto IARPA tiene como objetivo apoyar cualquier idioma en la Tierra y se espera que impulse la investigación en el dominio de otros idiomas.

http://www.iarpa.gov/solicitatio…

Los idiomas que ya tienen sistemas y bases de datos muy fuertes son el francés, el alemán y el japonés.

Del periódico

EL KIT DE HERRAMIENTAS DE RECONOCIMIENTO DEL DISCURSO IBM ATTILA
Hagen Soltau, George Saon y Brian Kingsbury

Las tarifas en 3 idiomas son:
Árabe 7.2% WER
Chino 9.1% CER
Inglés 12.3% WER

Pero es difícil marcar la diferencia únicamente en el lenguaje porque hay muchos otros factores, como la calidad del material de capacitación y evaluación, etc. Y hay problemas específicos del idioma, como los diacríticos en árabe. Algunos idiomas como el español son definitivamente mejores dado que todo lo demás es igual, pero es posible que no haya disponible un gran material de capacitación en español.

No es realmente un problema de investigación si algunos idiomas son mejores para el reconocimiento. Algunos definitivamente lo son, otros no. El enfoque utilizado para construir el sistema ASR utiliza principios fundamentales y funciona para la mayoría de los idiomas.

Olvidémonos de las máquinas por un momento. Algunas personas han argumentado que algunos idiomas son más complejos que otros, incluso desde un punto de vista humano.

Wikipedia tiene un artículo interesante ( http://en.wikipedia.org/wiki/Lan …) sobre este tema. Algunos de los factores que contribuyen a la dificultad de un idioma sobre otro son:

1. Confusiones de fonemas : los fonemas son las unidades básicas del habla. Si la distancia
entre los fonemas de un idioma es más pequeño que otro idioma, entonces es más difícil de reconocer. Ver [1] (también citado en el enlace wiki arriba) .

2. Gramática: algunos idiomas tienen una gramática mucho más simple que otros. Por ej. Las palabras en chino generalmente tienen una sola forma (falta de sufijos de inflexión como -s, -er, -ly).

3. Vocabulario / tamaño del concepto : a mayor riqueza (en términos de vocabulario) de un idioma, más difícil sería dominarlo. Ver [2].

4. Otros factores: los idiomas tonales [3] como el chino (mandarín) agregan otra dimensión a la complejidad del lenguaje, ya que ahora el significado podría cambiar drásticamente con la variación del tono.

Ver también [4] y [5] para más discusión sobre la complejidad del lenguaje.

Dadas tantas variables, creo que algunos lenguajes serían más difíciles de reconocer que otros por las máquinas también. Pero si observa la literatura de reconocimiento de voz, los algoritmos básicos aplicados no discriminan mucho entre los idiomas. Como dijiste, la duración de las palabras juega un papel en la tasa de reconocimiento. Los algoritmos ASR pueden reconocer palabras más largas con más precisión que las palabras más cortas. Pero creo que esta diferencia se estaría promediando cuando consideramos todos los factores. Por supuesto, la comprensión del habla (= reconocimiento + PNL) definitivamente se vería afectada por todos los factores de complejidad del lenguaje que perciben los humanos.

Árbitro.

[1] Estudio comparativo de los idiomas Tolomako y Sakao por Jacques Guy , http://wiw.org/~jkominek/lojban/

[2] Un enfoque práctico para la complejidad del lenguaje: un estudio de caso de Wikipedia http://arxiv.org/abs/1204.2765

[3] Idiomas tonales http://en.wikipedia.org/wiki/Ton

[4] Complejidad del lenguaje como una variable en evolución http://www.oup.com/us/catalog/ge

[5] Complejidad del lenguaje: tipología, contacto, cambio http://benjamins.com/#catalog/bo

More Interesting

¿Qué sensores tiene el robot Nao?

¿La prueba de Turing está desactualizada? ¿Se necesita hacer una nueva prueba para validar la sensibilidad de una IA?

¿Qué sucederá cuando todos los trabajos en la tierra sean automatizados y realizados por máquinas?

¿Podemos formar amistades con los árboles? ¿Cómo pueden los árboles mejorar la salud mental?

¿Qué hardware ejecuta Google DeepMind AI? ¿Es el mismo hardware detrás de AlphaGO?

¿Me puede sugerir un problema / proyecto de aprendizaje de robots de nivel principiante?

¿Puede una máquina artificialmente inteligente sentir emoción sin mostrarla como pocos humanos lo hacen?

En una simulación de la Red Neural Spiking usando el modelo Izhikevich, ¿qué inhibe la activación de la neurona más de una vez por espiga?

¿Cuáles son ejemplos de problemas que los humanos son mucho mejores para resolver en comparación con las computadoras?

¿Por qué Go es el único juego de mesa en el que los humanos aún pueden vencer a las computadoras de manera confiable?

Cómo comenzar a aprender inteligencia artificial y construir una aplicación de inteligencia artificial real usando Python o Java

Si llegamos a AGI (inteligencia general artificial), ¿comenzaremos un nuevo tipo de esclavitud?

¿De qué manera pueden los robots ayudar a mejorar el medio ambiente?

Cómo elegir una red neuronal para la clasificación basada en la aplicación y cómo las capas ocultas afectan el rendimiento de la red neuronal

¿Cómo podría comercializarse la IA?