¿Cuál es la tecnología de conversión de audio a texto más avanzada?

El uso de redes neuronales artificiales se ha visto como una gran ayuda en el reconocimiento de voz (The New York Times). Las redes neuronales, como se las conoce, son un algoritmo de aprendizaje avanzado con muchas aplicaciones, incluidas biología, finanzas, etc. Cada vez más, se utilizan en la investigación de reconocimiento de voz (Universidad de Toronto, Microsoft).

Si bien esto es más un enfoque de investigación que la tecnología de conversión per se, su incorporación a herramientas y dispositivos futuros está casi garantizada.

Otras áreas de técnicas avanzadas de análisis de audio incluyen el modelo Hidden Markov, para aprendizaje automático.

En el futuro, es probable que tengamos la capacidad de traducir audio a texto al instante y casi al pie de la letra , aunque “la decodificación perfecta” es discutible.

Por ahora, parece que gran parte de lo que crea una comprensión de audio de alta calidad es la capacidad de la herramienta para estudiar los patrones de habla que encuentra y aprender de ellos. Así es principalmente como Siri y Cortana, entre otras herramientas, mejoran con el tiempo.

Este sitio hace un buen trabajo al revisar los servicios de transcripción automatizados: Servicios de transcripción automática comparados: ¿Qué debe usar?

Sonix clasificó más alto en precisión entre los servicios automatizados.

Se llama punto de dragón y habla, pero cuesta dinero.