¿Cuáles deberían ser mis pasos para el término proyecto ‘Reconocimiento de voz a través de redes neuronales artificiales’?

En primer lugar, debe saber que hay dos tipos de redes neuronales artificiales (ANN). Las ANN anticipadas que se alimentan solo de datos espaciales y las ANN recurrentes (RNN) que se alimentan de señales que varían en el tiempo. Debe actualizar su memoria en un RNN especial llamado red neuronal recurrente de memoria a largo plazo (LSTM). Pueden alimentarse de espectrogramas espacio-temporales y aprender a mapear el audio a la identidad del hablante de esa manera.

En segundo lugar, recopilar datos de entrenamiento, muchos de ellos. El tamaño de los datos dependerá de la cantidad de altavoces a reconocer, la calidad de los datos y el tamaño de su red. Entonces, si desea capacitar a una red grande, necesita muchos datos de capacitación, puede buscar bases de datos existentes en este espacio.

Bien, aquí está el diseño para su posible sistema de reconocimiento de voz. Hay cuatro etapas a saber:

entrada de audio sin formato (1) – espectrograma (2) – LSTM (3) – identidad de salida (4)

La entrada es audio sin formato que debe convertirse en una forma especial de frecuencia frente a amplitud antes de alimentar al RNN. Esto es similar a la coclear en el oído humano. El resultado es un espectrograma que puede usar como características para alimentar el RNN. Puede utilizar la transformada de Fourier rápida discreta a corto plazo [1] para convertir la señal de audio en un espectrograma.

El LSTM luego se alimenta de esta alimentación de espectrograma y se capacita en los datos para aprender un mapeo de este espacio al espacio de identificación. Puede usar un softmax para la capa de salida para que la salida sea un puntaje de probabilidad para cada ID de altavoz.

De eso se trata, no es tan difícil, pero la parte difícil es hacerlo funcionar. Debe encontrar los hiperparámetros óptimos para el sistema y ejecutar varios círculos de pruebas de entrenamiento antes de conformarse con un diseño funcional.

Espero que esto ayude.

Notas al pie

[1] Transformada de Fourier a corto plazo – Wikipedia

Hoy, la mayoría de los asistentes virtuales enfrentan dificultades con los acentos. por lo tanto, si tiene el tiempo suficiente y puede recopilar datos de personas con diferentes etnias y nacionalidades, esto sería una contribución significativa al reconocimiento de voz.