¿Cuáles son algunas de las funciones de uso común que se pueden extraer de la música con fines de aprendizaje automático?

La música tiene una enorme cantidad de abstracción perceptiva cuando uno observa profundamente cada nota de cada melodía, cada armonía, las señales rítmicas sutiles y directas, y los cambios tímbricos. Todas estas “características perceptivas” contribuyen a la comprensión y percepción humana de una pieza musical. La elección musical de las personas también está determinada en gran medida por estas características. (Ver Neurociencia cognitiva de la música para más detalles). Dejando a un lado los metadatos de la canción, las características que uno quisiera extraer de una pieza de audio para fines de aprendizaje automático deberían tratar de modelar las “características perceptivas” como se presentó anteriormente.

Por lo general, la música se caracteriza sobre la base de cinco ejes amplios, a saber: melodía, armonía, timbre, ritmo y dinámica .

  • Melodía Una melodía es la “melodía” que el oyente “sigue”. Es una secuencia de tonos musicales (o tonos) sucesivos que dan una percepción de una sola entidad. La mayoría de las características relacionadas con la melodía giran en torno al concepto de escala (música). Algunas características comunes que se pueden extraer después de aplicar un algoritmo de seguimiento de tono al audio son:
    1. Histograma de tono . Indica durante cuánto tiempo se han tocado cada una de las doce notas en la canción. Es útil para determinar la nota tónica, y también para determinar la escala o el modo.
    2. Intervalos melódicos. Da una estimación del intervalo más utilizado (distancia de tono entre dos notas). Como un crudo ejemplo, un tercer intervalo menor da una percepción de “tristeza”, mientras que un tercio mayor da una sensación de “felicidad”. [Intervalo (música)].
    3. Dirección del movimiento . Si los tonos son ascendentes o descendentes. Da una estimación de la percepción del “flujo” de la música.
  • Armonía. La armonía se refiere a la voz simultánea de dos o más notas. Esto también da lugar a acordes. Las características comunes incluyen:
    1. Intervalos verticales. Similar a los intervalos melódicos descritos anteriormente. La diferencia es que en este caso, las notas no son sucesivas sino simultáneas.
    2. Relación mayor / menor. La fracción de tiempo se expresan intervalos mayores o menores.
  • Timbre. Timbre se refiere a la calidad sonora de un instrumento musical, o una sección de una pieza musical. Distingue diferentes tipos de producción de sonido, como voces e instrumentos musicales, instrumentos de cuerda, instrumentos de viento e instrumentos de percusión. Las características físicas del sonido que determinan la percepción del timbre incluyen el espectro y la envolvente. (Wikipedia) Características comunes:
    1. MFCC . Los coeficientes cepstrales de frecuencia de mel son las características ubicuas utilizadas en el reconocimiento de voz. Proporcionan un muy buen conjunto de características de baja dimensión para textura de sonido. En términos simples, los MFCC se pueden definir como “espectro de un espectro”.
    2. Ataque. Da una estimación de qué tan rápido suena una nota. ¿Suena como un “golpe” (por ejemplo, piano) o tiene un aumento gradual de la intensidad (por ejemplo, violín)?
    3. Cruce por cero. Algo se correlacionó con el tono del sonido. Cuenta el número de veces que la señal cruza el eje x en un tiempo determinado.
    4. Características espectrales como centroide espectral, asimetría, diseminación, curtosis y planitud. Estas características se derivan directamente del espectro y dan una representación de la ‘forma’ del espectro de la música y, por lo tanto, del timbre.
  • Ritmo Ritmo generalmente significa un “movimiento marcado por la sucesión regulada de elementos fuertes y débiles, o de condiciones opuestas o diferentes” (Wiki).
    Consulte esta página para conocer las características de ritmo: grupo MIR en IFS, TU Viena.
  • Dinámica. La dinámica se refiere a las variaciones de volumen en una canción. Las características que representan esto son:
    1. Energía RMS. Componente de energía en la señal de audio en función del tiempo.
    2. Baja tasa de energía. La curva de energía se puede usar para obtener una evaluación de la distribución temporal de la energía, para ver si permanece constante a lo largo de la señal, o si algunos cuadros son más contrastantes que otros. Una forma de estimar esto consiste en calcular la baja tasa de energía, es decir, el porcentaje de cuadros que muestran una energía inferior a la media.

Si está trabajando en MATLAB, puede mirar este recurso para ayudarlo en la extracción de características del audio: Humanistinen tiedekunta [MIRToolbox for MATLAB].

Te sugiero que pases por la página del conjunto de datos de millones de canciones.
Contiene una gran variedad de características, desde metadatos hasta características espectrales, extraídas para cada canción y, por supuesto, puede definir las suyas según sus necesidades, pero esta página le dará una muy buena idea de cómo debería ser una característica.

Los capítulos 3 y 4 de esta tesis doctoral indican muchas características. En general también, esta tesis de la Universidad McGill puede ser bastante útil. http://jmir.sourceforge.net/publ

More Interesting

¿Qué recursos de tutoría están disponibles para que un ingeniero aprenda Machine Learning en Quora?

¿Cuál es la mejor manera de distribuir el descenso de gradiente?

¿Cuán eficientes pueden ser los datos de biomarcadores para predecir el deterioro clínico?

¿Qué puedo hacer con un conjunto de datos de temperatura?

¿Qué son los SVM?

Cómo clasificar imágenes de texto en inglés y en otros idiomas usando SVM

¿Puedo entrenar una red neuronal convolucional (CNN) con imágenes de fondo diferente en blanco y negro?

¿Existe alguna implementación de aprendizaje profundo de respuesta basada en la recuperación de preguntas?

¿Cuáles son algunos de los problemas de aprendizaje automático (nivel introductorio) que un estudiante de economía puede modelar con los datos disponibles para una tesis de licenciatura?

¿Qué opinas sobre la inteligencia artificial? ¿Vale la pena desarrollarla?

Sistemas móviles: ¿Qué empresas / organizaciones de investigación están trabajando en el área de análisis de comportamiento / sistemas colaborativos basados ​​en dispositivos móviles?

¿Cómo puedo usar una red neuronal de convolución (para reconocimiento facial) después del entrenamiento? Quiero darle una cara como entrada y ver la salida predicha.

Si existieran interfaces neuronales, ¿cuáles serían las aplicaciones civiles? ¿Cuántos tendría, por qué?

¿Qué tan difícil es aprender el aprendizaje automático y el aprendizaje profundo después de los 30 años?

¿Qué condiciones se deben cumplir para que el tiempo de ejecución se acelere al usar GPU para redes neuronales (NN)?