¿Cuál es la mejor manera de convertir voz a texto?

http://en.wikipedia.org/wiki/Lis… enumera dos ejemplos de software de reconocimiento de voz de código abierto :

  • CMU Sphinx : http://en.wikipedia.org/wiki/CMU…
  • Julius : http://en.wikipedia.org/wiki/Jul… (relacionado con OpenVox )

Una búsqueda en Google de “reconocimiento de voz de código abierto” revela algunos más:

  • Simon : http://www.simon-listens.org
  • Mente abierta : http://freespeech.sourceforge.net

También hay un hilo de Slashdot de 2008 que arrojó algunas respuestas: http://slashdot.org/article.pl?s….

Divertidamente, trabajé en un kit de herramientas de reconocimiento de voz en PHP con Mark Zuckerberrg y Aaron Greenspan (y algunos otros) en un pequeño seminario en Harvard, pero no creo que ese código haya llegado al mundo de código abierto. Sin embargo, una cosa que aprendí durante el proyecto es cuán vigorosamente hace cumplir Nuance (nee Dragon Systems) sus patentes. Creo que es por eso que las ofertas en este campo son tan escasas.

Sin embargo, me pregunto si alguna de las compañías de telefonía estilo Asterix / Twilio está trabajando en algo en este campo.

CMU Sphinx ( http://cmusphinx.sourceforge.net/ ),
HLT ( http://htk.eng.cam.ac.uk/ ) un kit de herramientas ASR basado en HMM
, Julius ( http://julius.sourceforge.jp/en_ …) se utilizan para el reconocimiento automático de voz. El kit de herramientas de modelado del lenguaje también es necesario para proporcionar un mejor rendimiento, ya que ayudan a eliminar los ruidos y a enmarcar la oración correcta del texto generado por ASR. Las herramientas de modelado de idiomas se utilizan para eliminar el ruido, para proporcionar palabras similares alternativas en función del uso. http://www.speech.sri.com/projec … y http://www.speech.cs.cmu.edu/SLM … se utilizan para el modelado de idiomas.

Microsoft ha desarrollado un gran marco para convertir voz a texto. Lo estamos utilizando en nuestro servicio (Protokol – servicio innovador de voz a texto para reuniones productivas – aplicación Protokol) para transcribir voces de cualquier reunión en forma de texto de prueba de lectura. Hay Dragon from Nuance también es un programa de voz a texto, pero Microsoft funciona mucho mejor

More Interesting

¿Puede un robot AI reemplazar a un abogado en la corte?

¿Es realmente posible usar clasificadores de aprendizaje automático listos para usar como SVM o Random Forest para predecir con precisión la dirección del stock?

¿Cuáles son algunos buenos ejemplos de aplicaciones web que tienen inteligencia artificial?

¿Cómo afecta la automatización de IA en la ingeniería aeroespacial?

¿Es muy difícil hacer un doctorado en inteligencia artificial / aprendizaje automático?

Cómo imaginar las múltiples dimensiones en los problemas de aprendizaje automático

¿Puede existir un verdadero sistema de inteligencia artificial antes de que realmente comprendamos cómo funciona nuestro cerebro?

¿Cuáles son las mejores herramientas de aprendizaje automático?

¿Qué campos del derecho no se pueden automatizar?

¿Qué lenguaje de programación debo usar para implementar algoritmos de Machine Learning?

Quiero entrar en el campo de la inteligencia artificial. ¿Puedo hacer una licenciatura en informática en Stanford si he completado una licenciatura en el Reino Unido?

Cómo comenzar a crear un bot de Python

Un gobierno global dirigido por una IA diseñada para alcanzar la prosperidad en todos los países del planeta eliminaría las armas mundiales de una vez, ¿correcto?

Inteligencia artificial: ¿Qué tan inteligentes son las mejores personas en inteligencia artificial, en comparación con las mejores personas en matemáticas y física?

¿Por qué las redes neuronales necesitan una función de activación?