¿Cuál es el estado del arte en reconocimiento de voz en 2016?

Bueno, depende de cuánto tiempo tengas. Suponiendo que está solicitando conocimiento público, entonces, si tiene muchos meses, comience con los procedimientos de Interspeech, donde encontrará el estado del arte publicado. Necesitará unos años de experiencia en el habla para descubrir cuáles son buenas ideas que serán útiles algún día, cuáles son ideas útiles hoy y que realmente no seguirán vigentes. Alternativamente, si tiene unos meses, comience con Kaldi en la página de inicio, compre algunas GPU y siga la receta TEDLIUM. Si quiere saber ahora, entonces las palabras clave son big data, aprendizaje automático, redes neuronales profundas y redes neuronales recurrentes. Si solo quieres experimentar algo, entonces pide / pide prestado / roba un dispositivo Android o iOS. Si necesita una API, Google tiene una versión beta limitada gratuita en Speech API – Speech Recognition y ofrecemos lo que creemos que es lo mejor que puede encontrar en Speechmatics.

Para el individuo:

  • Para dictado: Dragan
  • Para reconocimiento de voz grabado: Speechmatics, VoiceBase
  • Para dos o más oradores: nada de lo que sé califica

Para los negocios:

  • Para dictado: Dragan
  • Para el reconocimiento de voz grabado: Speechmatics, Call Journey, VoiceBase
  • Para dos o más oradores: Speechmatics, Call Journey

Para desarrolladores:

Dictado: CMUSphinx, API de reconocimiento de voz de Google

Discurso grabado: Speechmatics, Call Journey

Para dos o más oradores: próximamente (se actualizará cuando tenga una ETA)

Gran decepción: IBM 🙁 Para un gigante tecnológico con gran tradición, su motor Watson me dejó decepcionado

Además de la respuesta de Tony, recomendaría consultar el siguiente documento que describe los resultados más avanzados para 2016:

[1604.08242] El sistema de reconocimiento de voz telefónica conversacional en inglés de IBM 2016

Esto es de Google Research:

Procesamiento de voz

Esto es de Microsoft:

[1610.05256] Lograr la paridad humana en el reconocimiento del habla conversacional

Logro histórico: los investigadores de Microsoft alcanzan la paridad humana en el reconocimiento de voz conversacional – Siguiente en Microsoft

Los investigadores de Microsoft logran un hito en el reconocimiento de voz – Siguiente en Microsoft

Esto es de Stanford:

Reconocimiento de voz más rápido en mensajes de texto | Noticias de Stanford

El habla es 3 veces más rápido que escribir para la entrada de texto en inglés y mandarín en dispositivos móviles

More Interesting

¿El aprendizaje automático está reemplazando la teoría de control tradicional?

¿Por qué las arquitecturas de aprendizaje profundo como CNN, Faster R-CNN o SSD están abiertas a todos? ¿Por qué estas personas no pueden patentar estas arquitecturas?

En LSTM, ¿cómo calculas qué tamaño deben tener los pesos?

¿Cuáles son algunos de los mejores cursos de ML para una maestría en India?

¿Es posible usar bibliotecas de aprendizaje automático OpenCV para aplicaciones que no son de visión por computadora?

¿Cuáles son los avances actuales en la ciencia de datos genómicos?

¿Cómo puede alguien usar los datos de la secuencia de genes para encontrar genes responsables de una enfermedad genética en particular?

¿Es posible entrenar modelos de aprendizaje automático de procesamiento de datos en dispositivos locales y enviar solo el modelo entrenado al servidor?

¿Qué área de la PNL es más prometedora y gana más tracción en la industria: la PNL sobre los datos de voz frente a texto?

¿Cuál es la mejor manera de implementar un SVM usando Hadoop?

¿Puedo predecir el precio de las acciones usando el aprendizaje automático en Python?

¿Desde dónde puedo aprender la implementación del aprendizaje automático en Python?

¿Puedo tomar el curso de aprendizaje automático de Andrew Ng siendo un estudiante de secundaria con algo de experiencia en programación y sin conocimientos avanzados de matemáticas?

¿Cuál es la mejor base de datos para almacenar vectores de características de gran tamaño para su posterior recuperación y calcular las mediciones de distancia para la coincidencia de similitudes?

Mi algoritmo de ML, escrito en Python, está casi completo. Quiero que sea un sitio web. ¿Cuál es la mejor manera de conectar mi script Python a Meteor?