¿Es posible detectar una estructura de acordes en una canción usando el aprendizaje profundo? Si es así, ¿cómo?

No usaría una CNN 2D para el problema. Hay muchas arquitecturas para el procesamiento de señales de audio, incluidas todas las que hacen reconocimiento de voz. Buscaría esos y elegiría el que tenga el mejor rendimiento que cumpla con mis requisitos de recursos (por ejemplo, ¿necesita que sea en tiempo real, etc.?)

Recomiendo usar el aprendizaje auto supervisado para aprender una representación decente de las características de las canciones, es decir, la pérdida debería “pedir” a la red que prediga el siguiente símbolo dado el historial de símbolos leídos hasta ahora [1,2].

Una vez que haya aprendido una representación de características decente, debería poder usar un conjunto de datos etiquetado relativamente pequeño para entrenar lo que desea predecir, al congelar las partes de aprendizaje de características de la red.

[1] La efectividad irracional de las redes neuronales recurrentes

[2] [1505.01596] Aprendiendo a ver moviéndose

Debería ser posible. Recomiendo usar espectrogramas como entrada a una red neuronal que utiliza capas convolucionales (tiene en cuenta la dependencia espacial del espectrograma para detectar el acorde) y capas recurrentes (tiene en cuenta la estructura secuencial de las canciones). Un espectrograma se basa en la transformación de Fourier a corto plazo y es directamente aplicable en este escenario. Puede buscar en línea una base de datos que contenga datos de este tipo o etiquetar manualmente los datos de audio usted mismo.

Es probable que esto sea posible, pero obtener los datos será la parte difícil. Mi primer instinto sería usar una CNN como clasificador. Los datos estarían en el formato de una grabación de audio de longitud fija (llamada longitud Y) de diferentes acordes, y el objetivo sería una clasificación de ese acorde. Por lo tanto, alimentaría las grabaciones una por una y la red aprendería cómo ajustar los pesos para clasificarlo como el acorde correcto. Probablemente necesitará varios cientos de ejemplos diferentes de cada acorde que desee clasificar. Querrá extraer las grabaciones de duración fija de todos los diferentes tipos de música para que la red aprenda a filtrar otros ruidos en el audio.

Si quisiera poder introducir una canción y tocar el acorde con la precisión de un intervalo X (que podría ser, digamos, cada medio segundo), miraría las ventanas de la canción de longitud Y y se deslizaría la ventana paso a paso por X tomando la clasificación de probabilidad más alta en cada paso. De esta manera, obtendría una lista de acordes que se reproducen a lo largo de la canción.

Conozco algunos intentos de clasificar la música en función de las señales, pero generalmente tratan de clasificar canciones. Sin embargo, los acordes serían teóricamente posibles. Los etiquetaría por tipo de acorde, y lo alimentaría con las muestras para entrenar. Sin embargo, para algo tan simple, es posible que no desee un modelo de aprendizaje profundo.

No he visto este tipo de detectores, pero creo que es totalmente posible usar convnets.

More Interesting

Cómo realizar el aprendizaje de refuerzo en una red neuronal de alimentación oculta de capas múltiples

¿Por qué muchos estudios de investigación afirman que el aprendizaje profundo es una caja negra?

¿Cuál es la diferencia entre Empirical Bayes e inferencia bayesiana?

¿Qué industria utiliza una máquina de granallado?

¿Cuál es la ventaja del modelo espacial autorregresivo?

¿Por qué no es una buena idea tener el mismo tren y equipo de prueba?

Cómo guardar los pesos de los datos de entrenamiento de las pruebas MNIST en Tensorflow para uso futuro

¿Qué tan similares son los problemas en los diversos campos del análisis de datos (aprendizaje automático, estadísticas, procesamiento de señales, optimización, teoría de la información, etc.)?

¿Cómo lidian las personas con visión artificial con el sobreajuste?

¿Se utilizan algoritmos básicos de CS en el aprendizaje automático?

Entre la agrupación y la clasificación, ¿cuál requiere más experiencia?

¿Cuáles son las innovaciones clave en el documento 'Evolución a gran escala de clasificadores de imágenes' de Google Brain?

¿Qué tan buenos antecedentes en ML ofrece el curso Coursera Machine Learning a alguien?

Además de las universidades mejor clasificadas (# 1-20), ¿qué otra universidad ofrece un buen programa de maestría en informática con especialización en IA / ML en EE. UU.?

¿Las empresas de reconocimiento de imágenes / servicios API utilizan solo modelos neuronales profundos y nada más?