Reconocimiento de voz: ¿algunos idiomas hablados son más fáciles de reconocer por una máquina?

No es el caso de que el inglés sea el único idioma bien investigado. Existe un gran interés en el reconocimiento del árabe y el mandarín del proyecto DARPA Gale, por lo que el árabe está muy bien investigado. El nuevo proyecto IARPA tiene como objetivo apoyar cualquier idioma en la Tierra y se espera que impulse la investigación en el dominio de otros idiomas.

http://www.iarpa.gov/solicitatio…

Los idiomas que ya tienen sistemas y bases de datos muy fuertes son el francés, el alemán y el japonés.

Del periódico

EL KIT DE HERRAMIENTAS DE RECONOCIMIENTO DEL DISCURSO IBM ATTILA
Hagen Soltau, George Saon y Brian Kingsbury

Las tarifas en 3 idiomas son:
Árabe 7.2% WER
Chino 9.1% CER
Inglés 12.3% WER

Pero es difícil marcar la diferencia únicamente en el lenguaje porque hay muchos otros factores, como la calidad del material de capacitación y evaluación, etc. Y hay problemas específicos del idioma, como los diacríticos en árabe. Algunos idiomas como el español son definitivamente mejores dado que todo lo demás es igual, pero es posible que no haya disponible un gran material de capacitación en español.

No es realmente un problema de investigación si algunos idiomas son mejores para el reconocimiento. Algunos definitivamente lo son, otros no. El enfoque utilizado para construir el sistema ASR utiliza principios fundamentales y funciona para la mayoría de los idiomas.

¿Cómo funciona el algoritmo de ciencia de datos / aprendizaje automático de Piedmont Media para clasificar guiones de películas?

¿Cómo es una copia tuya, no tú?

¿Cuáles son las diferencias clave entre el aprendizaje del programa bayesiano y el aprendizaje profundo?

¿Cuándo reemplazará la inteligencia artificial a los abogados?

¿Se puede usar la computación humana gratuita para inventar servicios inteligentes de computación humana (por ejemplo, Duolingo)?

¿Cuál es el estado del arte en la música compuesta por computadora?

Olvidémonos de las máquinas por un momento. Algunas personas han argumentado que algunos idiomas son más complejos que otros, incluso desde un punto de vista humano.

Wikipedia tiene un artículo interesante ( http://en.wikipedia.org/wiki/Lan …) sobre este tema. Algunos de los factores que contribuyen a la dificultad de un idioma sobre otro son:

1. Confusiones de fonemas : los fonemas son las unidades básicas del habla. Si la distancia
entre los fonemas de un idioma es más pequeño que otro idioma, entonces es más difícil de reconocer. Ver [1] (también citado en el enlace wiki arriba) .

2. Gramática: algunos idiomas tienen una gramática mucho más simple que otros. Por ej. Las palabras en chino generalmente tienen una sola forma (falta de sufijos de inflexión como -s, -er, -ly).

3. Vocabulario / tamaño del concepto : a mayor riqueza (en términos de vocabulario) de un idioma, más difícil sería dominarlo. Ver [2].

4. Otros factores: los idiomas tonales [3] como el chino (mandarín) agregan otra dimensión a la complejidad del lenguaje, ya que ahora el significado podría cambiar drásticamente con la variación del tono.

Ver también [4] y [5] para más discusión sobre la complejidad del lenguaje.

Dadas tantas variables, creo que algunos lenguajes serían más difíciles de reconocer que otros por las máquinas también. Pero si observa la literatura de reconocimiento de voz, los algoritmos básicos aplicados no discriminan mucho entre los idiomas. Como dijiste, la duración de las palabras juega un papel en la tasa de reconocimiento. Los algoritmos ASR pueden reconocer palabras más largas con más precisión que las palabras más cortas. Pero creo que esta diferencia se estaría promediando cuando consideramos todos los factores. Por supuesto, la comprensión del habla (= reconocimiento + PNL) definitivamente se vería afectada por todos los factores de complejidad del lenguaje que perciben los humanos.

Árbitro.

[1] Estudio comparativo de los idiomas Tolomako y Sakao por Jacques Guy , http://wiw.org/~jkominek/lojban/ …

[2] Un enfoque práctico para la complejidad del lenguaje: un estudio de caso de Wikipedia http://arxiv.org/abs/1204.2765

[3] Idiomas tonales http://en.wikipedia.org/wiki/Ton …

[4] Complejidad del lenguaje como una variable en evolución http://www.oup.com/us/catalog/ge …

[5] Complejidad del lenguaje: tipología, contacto, cambio http://benjamins.com/#catalog/bo …

Nickolay Shmyrev

More Interesting

¿Qué sensores tiene el robot Nao?

¿La prueba de Turing está desactualizada? ¿Se necesita hacer una nueva prueba para validar la sensibilidad de una IA?

¿Qué sucederá cuando todos los trabajos en la tierra sean automatizados y realizados por máquinas?

¿Podemos formar amistades con los árboles? ¿Cómo pueden los árboles mejorar la salud mental?