¿Qué ha causado la gran mejora en los algoritmos de reconocimiento de voz en los últimos años: mejores algoritmos (si es así, ¿cuál?) O la mayor potencia informática?

Las principales razones para las mejoras se deben en realidad a estas tres razones:

  1. Mejores algoritmos : el aprendizaje profundo actualmente está superando los límites en muchas áreas, como el reconocimiento de voz y de imagen. No hay otro tipo de red neuronal que parece haber revolucionado la forma en que se procesan los datos sensoriales que las redes neuronales convolucionales. ConvNets son lo último en tecnología y son responsables del mayor progreso realizado en el aprendizaje automático en los últimos años.
  2. Big data : el aprendizaje profundo se inventó en la década de 1980, pero tuvo poco impacto debido a la falta de datos. Por otro lado, hoy la disponibilidad de muchos datos hace que estos viejos algoritmos, con algunas mejoras, funcionen como magia. El aprendizaje profundo requiere muchos datos para aprender debido a la presencia de muchos parámetros para sintonizar. Big data alimenta estos sistemas computacionales hambrientos de datos.
  3. Mayor potencia informática : la llegada de los cálculos basados ​​en GPU y la facilidad con la que se pueden codificar los cálculos acelerados por GPU hacen que sea fácil lograr mejoras de rendimiento sobresalientes. Los tiempos de aprendizaje se pueden reducir de meses a semanas, también mejora la velocidad de reconocimiento.

El mapeo de patrones de sonido a palabras es un problema resuelto, pero aquí hay un problema mayor, es más importante comprender el significado de grupos de palabras más el contexto de lo que se está hablando. La cuestión es que si dicho significado puede extraerse de una declaración oral o escrita, las máquinas no solo pueden aprender a reconocer el habla, sino que literalmente comienzan una conversación con un humano.

Espero que esto ayude.