¿Es posible hacer el reconocimiento de voz de otras maneras aparte del reconocimiento de patrones, o podemos hacerlo mejor? Si la respuesta es sí, ¿cómo?

El aprendizaje automático y el reconocimiento de patrones son términos bastante amplios con un significado no muy exacto. Si define el aprendizaje automático como el dominio de las matemáticas o CS que trata con grandes conjuntos de datos e intenta usar computadoras para encontrar algunas dependencias en ellos, el reconocimiento de voz parece ser una aplicación natural del aprendizaje automático. Por lo tanto, no hay nada de malo en usar el aprendizaje automático para hacer el reconocimiento de voz.

La pregunta es cómo se aplica el aprendizaje automático. En los enfoques convencionales, hay bastantes problemas y cuestiones sin resolver que requieren más investigación. Por ejemplo, no existe un conocimiento fundamental sobre cómo el oído humano trata con los sonidos reverberados. Se sabe que los humanos incluso prefieren el sonido ligeramente reverberado sobre el no reverberado, lo que le da un poco más de naturalidad al discurso. Sin embargo, la mayoría de los sistemas modernos degradan drásticamente su precisión en ese caso. Los modelos de habla que utilizamos en el aprendizaje automático son demasiado simplistas y no pueden manejar bien la reverberación. También hay otros problemas importantes, por ejemplo, aún no se comprende bien cómo los humanos manejan diferentes acentos con mucha mayor precisión que los reconocedores modernos.

En ese sentido, estoy totalmente de acuerdo con usted en que el número de características consideradas es algo pequeño y demasiado simplificado. Se requiere una investigación más profunda en muchas áreas de reconocimiento de voz, con suerte, pronto obtendrá una gran noticia al respecto. Para analizar más las cosas, necesitamos especializarnos en aspectos importantes del reconocimiento de voz y tratar de resolverlos con las mejores herramientas de aprendizaje automático que tenemos ahora.

Hay 3 enfoques principales utilizados para hacer el reconocimiento de voz. El más utilizado es entrenar un modelo oculto de Markov. Este modelo estadístico generará en cada estado una mezcla de gaussianos que representa la probabilidad de hacer todas las observaciones posibles. El algoritmo de viterbi se puede usar para retroceder y encontrar la secuencia más probable que conduce a las observaciones actuales.

Los otros 2 métodos utilizados para el reconocimiento de voz son las redes neuronales y la deformación dinámica del tiempo, que puede leer en wikipedia.

More Interesting

En el futuro, ¿será posible que la inteligencia artificial lidere una empresa como la inteligencia ejecutiva detrás de la estrategia?

Cómo hacerme inteligente

¿Qué especialización de M.Tech (CS) en la Universidad de Hyderabad tiene las mejores ubicaciones, informática, inteligencia artificial o TI?

¿Qué estudio de graduación debería elegir: inteligencia artificial o robótica?

Cómo escribir una aplicación de IA que lea todos los tipos de registros de miles de servidores, enviar de vuelta a un cerebro de análisis de ML y proporcionar respuesta a cada servidor

¿Qué tan probable es que AI tome el trabajo de los programadores? ¿Hay perspectivas de ese tipo en el horizonte?

¿Es el NVIDIA Titan X mejor que dos GTX 980 para el aprendizaje profundo?

En el aprendizaje automático, ¿cómo puedo juzgar si algo, como una secuencia, es predecible?

¿Se puede usar Haskell en un proyecto serio de IA?

¿Por qué el 'Xiaoice' de Microsoft tuvo mucho más éxito que el 'Tay.ai'?

¿Podemos crear sistemas con una mayor complejidad que los que se encuentran en la naturaleza?

¿Cuál es el cronograma de las habilidades informáticas necesarias para el desarrollo para poder trabajar en inteligencia artificial?

¿Cuál es el problema de 'morir ReLU' en las redes neuronales?

¿Puede una máquina artificialmente inteligente sentir emoción sin mostrarla como pocos humanos lo hacen?

¿Qué tan lejos estamos de poder programar una computadora para distinguir buena música de mala música o ruido, de forma similar a como lo hace un humano?