Bueno, depende de cuánto tiempo tengas. Suponiendo que está solicitando conocimiento público, entonces, si tiene muchos meses, comience con los procedimientos de Interspeech, donde encontrará el estado del arte publicado. Necesitará unos años de experiencia en el habla para descubrir cuáles son buenas ideas que serán útiles algún día, cuáles son ideas útiles hoy y que realmente no seguirán vigentes. Alternativamente, si tiene unos meses, comience con Kaldi en la página de inicio, compre algunas GPU y siga la receta TEDLIUM. Si quiere saber ahora, entonces las palabras clave son big data, aprendizaje automático, redes neuronales profundas y redes neuronales recurrentes. Si solo quieres experimentar algo, entonces pide / pide prestado / roba un dispositivo Android o iOS. Si necesita una API, Google tiene una versión beta limitada gratuita en Speech API – Speech Recognition y ofrecemos lo que creemos que es lo mejor que puede encontrar en Speechmatics.
¿Cuál es el estado del arte en reconocimiento de voz en 2016?
Related Content
¿Hay orden entre las características de las incrustaciones de palabras?
Cómo lidiar con múltiples resultados mutuamente dependientes en el aprendizaje automático
¿Debo ir al análisis de datos o al aprendizaje automático?
¿Cuándo debo usar la agrupación antes de ejecutar un modelo de regresión logística?
Para el individuo:
- Para dictado: Dragan
- Para reconocimiento de voz grabado: Speechmatics, VoiceBase
- Para dos o más oradores: nada de lo que sé califica
Para los negocios:
- Para dictado: Dragan
- Para el reconocimiento de voz grabado: Speechmatics, Call Journey, VoiceBase
- Para dos o más oradores: Speechmatics, Call Journey
Para desarrolladores:
Dictado: CMUSphinx, API de reconocimiento de voz de Google
Discurso grabado: Speechmatics, Call Journey
Para dos o más oradores: próximamente (se actualizará cuando tenga una ETA)
Gran decepción: IBM 🙁 Para un gigante tecnológico con gran tradición, su motor Watson me dejó decepcionado
Además de la respuesta de Tony, recomendaría consultar el siguiente documento que describe los resultados más avanzados para 2016:
[1604.08242] El sistema de reconocimiento de voz telefónica conversacional en inglés de IBM 2016
Esto es de Google Research:
Procesamiento de voz
Esto es de Microsoft:
[1610.05256] Lograr la paridad humana en el reconocimiento del habla conversacional
Logro histórico: los investigadores de Microsoft alcanzan la paridad humana en el reconocimiento de voz conversacional – Siguiente en Microsoft
Los investigadores de Microsoft logran un hito en el reconocimiento de voz – Siguiente en Microsoft
Esto es de Stanford:
Reconocimiento de voz más rápido en mensajes de texto | Noticias de Stanford
El habla es 3 veces más rápido que escribir para la entrada de texto en inglés y mandarín en dispositivos móviles
More Interesting
¿El aprendizaje automático está reemplazando la teoría de control tradicional?
En LSTM, ¿cómo calculas qué tamaño deben tener los pesos?
¿Cuáles son algunos de los mejores cursos de ML para una maestría en India?
¿Cuáles son los avances actuales en la ciencia de datos genómicos?
¿Cuál es la mejor manera de implementar un SVM usando Hadoop?
¿Puedo predecir el precio de las acciones usando el aprendizaje automático en Python?
¿Desde dónde puedo aprender la implementación del aprendizaje automático en Python?