¿Es posible detectar una estructura de acordes en una canción usando el aprendizaje profundo? Si es así, ¿cómo?

No usaría una CNN 2D para el problema. Hay muchas arquitecturas para el procesamiento de señales de audio, incluidas todas las que hacen reconocimiento de voz. Buscaría esos y elegiría el que tenga el mejor rendimiento que cumpla con mis requisitos de recursos (por ejemplo, ¿necesita que sea en tiempo real, etc.?)

Recomiendo usar el aprendizaje auto supervisado para aprender una representación decente de las características de las canciones, es decir, la pérdida debería “pedir” a la red que prediga el siguiente símbolo dado el historial de símbolos leídos hasta ahora [1,2].

Una vez que haya aprendido una representación de características decente, debería poder usar un conjunto de datos etiquetado relativamente pequeño para entrenar lo que desea predecir, al congelar las partes de aprendizaje de características de la red.

[1] La efectividad irracional de las redes neuronales recurrentes

[2] [1505.01596] Aprendiendo a ver moviéndose

Aprendizaje automáticoAprendizaje profundoMúsicaRedes neuronales artificiales

¿Cuáles son las principales aplicaciones potenciales para un cordón neural? ¿Hay algún peligro relacionado con el uso de dicha tecnología?

¿Cuáles son los trabajos más interesantes de CVPR 2016 y por qué?

¿Qué es la base del lenguaje?

¿Cuáles son algunos trabajos de investigación que puedo publicar en el campo del procesamiento / generación de lenguaje natural, aprendizaje automático y minería de datos?

¿Cuál es la mejor manera de trabajar en equipo (7 personas) en unidad? He buscado un poco en la web, pero realmente no encontré tutoriales útiles, solo consejos.

¿Por qué si cambio el servidor en Speedtest.net obtendré un resultado mucho mejor? ¿Aunque la conexión sigue siendo muy lenta?

Debería ser posible. Recomiendo usar espectrogramas como entrada a una red neuronal que utiliza capas convolucionales (tiene en cuenta la dependencia espacial del espectrograma para detectar el acorde) y capas recurrentes (tiene en cuenta la estructura secuencial de las canciones). Un espectrograma se basa en la transformación de Fourier a corto plazo y es directamente aplicable en este escenario. Puede buscar en línea una base de datos que contenga datos de este tipo o etiquetar manualmente los datos de audio usted mismo.

Debojyoti Majumder

Es probable que esto sea posible, pero obtener los datos será la parte difícil. Mi primer instinto sería usar una CNN como clasificador. Los datos estarían en el formato de una grabación de audio de longitud fija (llamada longitud Y) de diferentes acordes, y el objetivo sería una clasificación de ese acorde. Por lo tanto, alimentaría las grabaciones una por una y la red aprendería cómo ajustar los pesos para clasificarlo como el acorde correcto. Probablemente necesitará varios cientos de ejemplos diferentes de cada acorde que desee clasificar. Querrá extraer las grabaciones de duración fija de todos los diferentes tipos de música para que la red aprenda a filtrar otros ruidos en el audio.

Si quisiera poder introducir una canción y tocar el acorde con la precisión de un intervalo X (que podría ser, digamos, cada medio segundo), miraría las ventanas de la canción de longitud Y y se deslizaría la ventana paso a paso por X tomando la clasificación de probabilidad más alta en cada paso. De esta manera, obtendría una lista de acordes que se reproducen a lo largo de la canción.

Debojyoti Majumder

Conozco algunos intentos de clasificar la música en función de las señales, pero generalmente tratan de clasificar canciones. Sin embargo, los acordes serían teóricamente posibles. Los etiquetaría por tipo de acorde, y lo alimentaría con las muestras para entrenar. Sin embargo, para algo tan simple, es posible que no desee un modelo de aprendizaje profundo.

Debojyoti Majumder

No he visto este tipo de detectores, pero creo que es totalmente posible usar convnets.

Debojyoti Majumder

More Interesting

Cómo realizar el aprendizaje de refuerzo en una red neuronal de alimentación oculta de capas múltiples

¿Por qué muchos estudios de investigación afirman que el aprendizaje profundo es una caja negra?

¿Cuál es la diferencia entre Empirical Bayes e inferencia bayesiana?

¿Qué industria utiliza una máquina de granallado?

¿Cuál es la ventaja del modelo espacial autorregresivo?

¿Por qué no es una buena idea tener el mismo tren y equipo de prueba?

Cómo guardar los pesos de los datos de entrenamiento de las pruebas MNIST en Tensorflow para uso futuro

¿Cómo lidian las personas con visión artificial con el sobreajuste?