¿Qué tan precisos son los convertidores de voz a texto que están en uso, a nivel mundial (diferentes pronunciaciones)?

Yo mismo no he trabajado en la conversión de voz a texto, pero uso Google Voice como mi sistema de correo de voz y proporciona transcripciones de voz a texto. Supongo que es esencialmente lo último (por qué Google usaría un software de segunda categoría). Es lo suficientemente bueno como para que básicamente puedas obtener los puntos clave de lo que se dijo alrededor del 80% del tiempo, pero ocasionalmente obtienes algo tan confuso que no tiene ningún sentido. Creo que un sistema que puede ser entrenado en un solo usuario específico funcionará mejor. Un sistema que tiene que funcionar en un entorno ruidoso con muchas fuentes de sonido diferentes será mucho peor. No sé qué tan bien funcionan estas cosas en otros idiomas además del inglés, pero no creo que se requiera demasiada personalización además de una gran cantidad de datos de capacitación, así que supongo que cualquier idioma con millones de hablantes (o al menos cualquiera con 50 millones o más) tiene una tecnología de voz a texto construida para ello que es más o menos comparable. Por otro lado, quizás algunos idiomas sean mucho más difíciles o más fáciles (por ejemplo, los idiomas con menos vocales podrían ser más fáciles de diferenciar palabras).

Creo que el consenso es hasta un 90% correcto de fábrica (como Dragon Dictation). Si el sistema es costoso comercial y sofisticado, si se puede entrenar a su voz, y puede continuar corrigiéndolo a medida que lo usa, en un espacio tranquilo, puede aprender a funcionar tan bien como un oído humano. Sin embargo, dado que los humanos también aplicamos el contexto semántico a las palabras escuchadas que la máquina no puede, pasará un tiempo antes de que la máquina sea nuestra igual. (¿Más de 20 años?) Sin una IA a nivel humano en toda regla, la máquina probablemente quedará en desventaja para un adulto inteligente.

No lo son, porque calificó la pregunta con “global”. El único convertidor de voz a texto “global” preciso sería el algoritmo de inteligencia general. Todos los demás tienen esa capacidad como un objetivo inalcanzable a medida que sus bases de datos de diferentes acentos y generalidades sobre ellos (menos la generalidad final con respecto a todo el conocimiento) se acercan a lo que generaría un GIA para procesar el discurso.