¿Hay alguna trampa en los recientes anuncios de Microsoft e IBM sobre los avances en el reconocimiento de voz?

Los resultados son legítimos para reconocer palabras, para dictar. Los humanos pueden entender una oración sin escuchar cada palabra, por ejemplo, entender lo que alguien dijo en un ambiente de cóctel. Esto no significa que las computadoras entiendan tan bien como los humanos en general, aunque en casos especiales, podrían ser mejores que una persona promedio para comprender casos especializados, como tomar el informe dictado por un médico sobre un paciente y comprender qué campos en un Sistema de registro electrónico de salud para completar y con qué deben completarse. Es un avance que sugiere que las computadoras deberían ser capaces a la larga de funcionar tan bien como los humanos, si no mejor, en el reconocimiento de voz. La Alexa de Amazon, por ejemplo, puede comprenderte incluso cuando está tocando una canción porque sabe exactamente la señal de audio que transmite el altavoz y puede restarla, ¡una característica que la mayoría de los humanos no tiene!

Un inconveniente es que las soluciones de Microsoft e IBM son sistemas de investigación que pueden requerir demasiada potencia informática para implementarse prácticamente todavía.

More Interesting

¿Cuál es una mejor opción para que un graduado de negocios aprenda en términos de su carrera, ciencia de datos o aprendizaje automático?

¿Crees que los algoritmos de aprendizaje automático pueden cambiar la forma en que hacemos simulaciones numéricas?

¿Cuáles son las propiedades utilizadas para agrupar partículas en tipos?

¿El aprendizaje automático o los algoritmos de aprendizaje se pueden aplicar a problemas de optimización?

Support Vector Machines: ¿Cómo elijo un parámetro de escala de kernel?

¿Las redes neuronales son siempre convexas con respecto a los pesos? Y si no, ¿cómo funciona tan bien el descenso de gradiente?

¿Por qué las personas incrustan / envuelven código python en C / C ++?

¿Por qué las tasas de aceptación de las conferencias de minería de datos son tan bajas y qué tipo de documentos se rechazan?

¿Cómo trata Google Translate u otra traducción en línea con palabras que no existen en el otro idioma?

¿Es posible aplicar las técnicas de N-gram para el análisis de sentimientos?

¿Por qué tantos geeks de datos se unen a compañías web en lugar de resolver problemas de datos a gran escala en biología?

¿Qué información se debe divulgar para caracterizar un conjunto de datos para la clasificación de texto?

¿Se utiliza el álgebra abstracta y el análisis real en el aprendizaje automático? Si es así, ¿cómo se usan?

¿Puedo confiar en un modelo de clasificación con validación cruzada y precisión de prueba decentes incluso si el número de observaciones es menor que el de las características?

¿Qué piensa Vijay Balasubramaniyan del aprendizaje automático Adversarial?