Mi sugerencia…
Parte A: Generando la huella digital de audio del byte de sonido de entrada
1. Decodificación y normalización
Tome su archivo de sonido y conviértalo a formato PCM. Desea independencia de formato, velocidad de bits y pérdida en su algoritmo para obtener la máxima eficacia, ya que probablemente usará dispositivos sensores con diferentes niveles de calidad. También estandarice en un período de tiempo, digamos 15 segundos, y recorte el audio como tal.
- ¿Por qué el NN recurrente agrega el paso T-1 a la entrada actual pero se concatena?
- ¿Cuál es la mejor práctica y estructura de datos para la aplicación de autocompletado multilingüe?
- ¿Cuál es el algoritmo utilizado para convertir cadenas en enteros?
- Dada una expresión matemática 2 + 4 * 6 + 8-11, ¿cómo la colocaría entre corchetes de manera que proporcione el valor máximo? ¿Es posible codificar esto?
- ¿Cuáles son algunos de los algoritmos / estructuras de datos que son útiles en la vida real?
2. Extracción de frecuencia utilizando FFT. Ahora tendrá datos de amplitud a lo largo del tiempo para varias frecuencias. Las matrices grandes son el resultado.
3. Identificar una forma de extraer señales salientes. Puede ser creativo con DSP y estadísticas avanzadas aquí (coeficientes de Fourier, MFCC, planitud espectral, nitidez, trayectorias de pico, PCA).
4. Mayor reducción de datos y generación de huellas digitales. Hay varias técnicas de álgebra lineal disponibles para descomponer matrices grandes (SVD, LU y descomposiciones QR) de modo que se obtiene una reducción de la dimensionalidad sin demasiada pérdida de información.
5. Identifique una forma de mapear la información reducida, probablemente un conjunto de vectores, en una huella digital.
Parte B: Generando un marco para la correspondencia eficiente de huellas digitales
6. Construya un modelo de espacio vectorial de huellas digitales de todos los sonidos conocidos. Eso puede llevar un tiempo. Consejo: use una granja de cómputo como Amazon EC2 para construir esto más rápido.
7. Utilice algoritmos de recuperación de información estándar para hacer coincidir el sonido de entrada con el modelo de espacio vectorial.