No usaría una CNN 2D para el problema. Hay muchas arquitecturas para el procesamiento de señales de audio, incluidas todas las que hacen reconocimiento de voz. Buscaría esos y elegiría el que tenga el mejor rendimiento que cumpla con mis requisitos de recursos (por ejemplo, ¿necesita que sea en tiempo real, etc.?)
Recomiendo usar el aprendizaje auto supervisado para aprender una representación decente de las características de las canciones, es decir, la pérdida debería “pedir” a la red que prediga el siguiente símbolo dado el historial de símbolos leídos hasta ahora [1,2].
Una vez que haya aprendido una representación de características decente, debería poder usar un conjunto de datos etiquetado relativamente pequeño para entrenar lo que desea predecir, al congelar las partes de aprendizaje de características de la red.
- ¿Qué papel juegan las redes neuronales y el aprendizaje automático en la atención médica?
- ¿Cuál es la fortaleza y la debilidad del departamento de CS de Caltech, especialmente en el área de Machine Learning?
- ¿Es posible que, en el futuro, los países sean manejados por una súper computadora que calcule el mejor resultado de una decisión política?
- ¿Qué cursos deben tomar los antecedentes de EE para el aprendizaje profundo?
- ¿Cuál es la teoría detrás de ingresar una imagen en una red neuronal?
[1] La efectividad irracional de las redes neuronales recurrentes
[2] [1505.01596] Aprendiendo a ver moviéndose