En primer lugar, debe saber que hay dos tipos de redes neuronales artificiales (ANN). Las ANN anticipadas que se alimentan solo de datos espaciales y las ANN recurrentes (RNN) que se alimentan de señales que varían en el tiempo. Debe actualizar su memoria en un RNN especial llamado red neuronal recurrente de memoria a largo plazo (LSTM). Pueden alimentarse de espectrogramas espacio-temporales y aprender a mapear el audio a la identidad del hablante de esa manera.
En segundo lugar, recopilar datos de entrenamiento, muchos de ellos. El tamaño de los datos dependerá de la cantidad de altavoces a reconocer, la calidad de los datos y el tamaño de su red. Entonces, si desea capacitar a una red grande, necesita muchos datos de capacitación, puede buscar bases de datos existentes en este espacio.
Bien, aquí está el diseño para su posible sistema de reconocimiento de voz. Hay cuatro etapas a saber:
- ¿La inteligencia artificial está relacionada con la mecatrónica?
- Cómo construir una IA usando Anaconda
- Si la hipótesis de la singularidad es correcta, ¿cuál sería el propósito de la IA súper inteligente y qué podría lograr?
- ¿Cuál es el avance de la inteligencia artificial para imágenes y fotografía?
- ¿Cuál es el mejor proyecto de IA hasta la fecha?
entrada de audio sin formato (1) – espectrograma (2) – LSTM (3) – identidad de salida (4)
La entrada es audio sin formato que debe convertirse en una forma especial de frecuencia frente a amplitud antes de alimentar al RNN. Esto es similar a la coclear en el oído humano. El resultado es un espectrograma que puede usar como características para alimentar el RNN. Puede utilizar la transformada de Fourier rápida discreta a corto plazo [1] para convertir la señal de audio en un espectrograma.
El LSTM luego se alimenta de esta alimentación de espectrograma y se capacita en los datos para aprender un mapeo de este espacio al espacio de identificación. Puede usar un softmax para la capa de salida para que la salida sea un puntaje de probabilidad para cada ID de altavoz.
De eso se trata, no es tan difícil, pero la parte difícil es hacerlo funcionar. Debe encontrar los hiperparámetros óptimos para el sistema y ejecutar varios círculos de pruebas de entrenamiento antes de conformarse con un diseño funcional.
Espero que esto ayude.
Notas al pie
[1] Transformada de Fourier a corto plazo – Wikipedia