¿Cuál es el estado del arte en reconocimiento de voz en 2016?

Bueno, depende de cuánto tiempo tengas. Suponiendo que está solicitando conocimiento público, entonces, si tiene muchos meses, comience con los procedimientos de Interspeech, donde encontrará el estado del arte publicado. Necesitará unos años de experiencia en el habla para descubrir cuáles son buenas ideas que serán útiles algún día, cuáles son ideas útiles hoy y que realmente no seguirán vigentes. Alternativamente, si tiene unos meses, comience con Kaldi en la página de inicio, compre algunas GPU y siga la receta TEDLIUM. Si quiere saber ahora, entonces las palabras clave son big data, aprendizaje automático, redes neuronales profundas y redes neuronales recurrentes. Si solo quieres experimentar algo, entonces pide / pide prestado / roba un dispositivo Android o iOS. Si necesita una API, Google tiene una versión beta limitada gratuita en Speech API – Speech Recognition y ofrecemos lo que creemos que es lo mejor que puede encontrar en Speechmatics.

Aprendizaje automáticoBellas ArtesReconocimiento de voz

Related Content

¿Hay orden entre las características de las incrustaciones de palabras?

Cómo lidiar con múltiples resultados mutuamente dependientes en el aprendizaje automático

¿Debo ir al análisis de datos o al aprendizaje automático?

¿Cuándo debo usar la agrupación antes de ejecutar un modelo de regresión logística?

¿Cómo superan los modelos de lenguaje neuronal (NLM) la maldición del problema de dimensionalidad para modelar el lenguaje natural?

¿Cuál es la mejor introducción al aprendizaje profundo para un estudiante graduado con experiencia en matemáticas y CS?

¿Por qué TF (frecuencia de término) a veces da mejores puntuaciones F que TF-IDF para la clasificación de texto?

Para el individuo:

Para dictado: Dragan
Para reconocimiento de voz grabado: Speechmatics, VoiceBase
Para dos o más oradores: nada de lo que sé califica

Para los negocios:

Para dictado: Dragan
Para el reconocimiento de voz grabado: Speechmatics, Call Journey, VoiceBase
Para dos o más oradores: Speechmatics, Call Journey

Para desarrolladores:

Dictado: CMUSphinx, API de reconocimiento de voz de Google

Discurso grabado: Speechmatics, Call Journey

Para dos o más oradores: próximamente (se actualizará cuando tenga una ETA)

Gran decepción: IBM 🙁 Para un gigante tecnológico con gran tradición, su motor Watson me dejó decepcionado

Nickolay Shmyrev

Además de la respuesta de Tony, recomendaría consultar el siguiente documento que describe los resultados más avanzados para 2016:

[1604.08242] El sistema de reconocimiento de voz telefónica conversacional en inglés de IBM 2016

Andrea Zielinski

Esto es de Google Research:

Procesamiento de voz

Esto es de Microsoft:

[1610.05256] Lograr la paridad humana en el reconocimiento del habla conversacional

Logro histórico: los investigadores de Microsoft alcanzan la paridad humana en el reconocimiento de voz conversacional – Siguiente en Microsoft

Los investigadores de Microsoft logran un hito en el reconocimiento de voz – Siguiente en Microsoft

Esto es de Stanford:

Reconocimiento de voz más rápido en mensajes de texto | Noticias de Stanford

El habla es 3 veces más rápido que escribir para la entrada de texto en inglés y mandarín en dispositivos móviles

Andrea Zielinski

More Interesting

¿El aprendizaje automático está reemplazando la teoría de control tradicional?

¿Por qué las arquitecturas de aprendizaje profundo como CNN, Faster R-CNN o SSD están abiertas a todos? ¿Por qué estas personas no pueden patentar estas arquitecturas?

En LSTM, ¿cómo calculas qué tamaño deben tener los pesos?

¿Cuáles son algunos de los mejores cursos de ML para una maestría en India?

¿Es posible usar bibliotecas de aprendizaje automático OpenCV para aplicaciones que no son de visión por computadora?

¿Cuáles son los avances actuales en la ciencia de datos genómicos?

¿Cómo puede alguien usar los datos de la secuencia de genes para encontrar genes responsables de una enfermedad genética en particular?

¿Es posible entrenar modelos de aprendizaje automático de procesamiento de datos en dispositivos locales y enviar solo el modelo entrenado al servidor?

¿Qué área de la PNL es más prometedora y gana más tracción en la industria: la PNL sobre los datos de voz frente a texto?

¿Cuál es la mejor manera de implementar un SVM usando Hadoop?

¿Puedo predecir el precio de las acciones usando el aprendizaje automático en Python?

¿Desde dónde puedo aprender la implementación del aprendizaje automático en Python?

¿Puedo tomar el curso de aprendizaje automático de Andrew Ng siendo un estudiante de secundaria con algo de experiencia en programación y sin conocimientos avanzados de matemáticas?

¿Cuál es la mejor base de datos para almacenar vectores de características de gran tamaño para su posterior recuperación y calcular las mediciones de distancia para la coincidencia de similitudes?

Mi algoritmo de ML, escrito en Python, está casi completo. Quiero que sea un sitio web. ¿Cuál es la mejor manera de conectar mi script Python a Meteor?

Web Analytics