¿Cuáles son algunas de las funciones de uso común que se pueden extraer de la música con fines de aprendizaje automático? La tecnología cambia la vida futura

La música tiene una enorme cantidad de abstracción perceptiva cuando uno observa profundamente cada nota de cada melodía, cada armonía, las señales rítmicas sutiles y directas, y los cambios tímbricos. Todas estas “características perceptivas” contribuyen a la comprensión y percepción humana de una pieza musical. La elección musical de las personas también está determinada en gran medida por estas características. (Ver Neurociencia cognitiva de la música para más detalles). Dejando a un lado los metadatos de la canción, las características que uno quisiera extraer de una pieza de audio para fines de aprendizaje automático deberían tratar de modelar las “características perceptivas” como se presentó anteriormente.

Por lo general, la música se caracteriza sobre la base de cinco ejes amplios, a saber: melodía, armonía, timbre, ritmo y dinámica .

Melodía Una melodía es la “melodía” que el oyente “sigue”. Es una secuencia de tonos musicales (o tonos) sucesivos que dan una percepción de una sola entidad. La mayoría de las características relacionadas con la melodía giran en torno al concepto de escala (música). Algunas características comunes que se pueden extraer después de aplicar un algoritmo de seguimiento de tono al audio son:
1. Histograma de tono . Indica durante cuánto tiempo se han tocado cada una de las doce notas en la canción. Es útil para determinar la nota tónica, y también para determinar la escala o el modo.
2. Intervalos melódicos. Da una estimación del intervalo más utilizado (distancia de tono entre dos notas). Como un crudo ejemplo, un tercer intervalo menor da una percepción de “tristeza”, mientras que un tercio mayor da una sensación de “felicidad”. [Intervalo (música)].
3. Dirección del movimiento . Si los tonos son ascendentes o descendentes. Da una estimación de la percepción del “flujo” de la música.
Armonía. La armonía se refiere a la voz simultánea de dos o más notas. Esto también da lugar a acordes. Las características comunes incluyen:
1. Intervalos verticales. Similar a los intervalos melódicos descritos anteriormente. La diferencia es que en este caso, las notas no son sucesivas sino simultáneas.
2. Relación mayor / menor. La fracción de tiempo se expresan intervalos mayores o menores.
Timbre. Timbre se refiere a la calidad sonora de un instrumento musical, o una sección de una pieza musical. Distingue diferentes tipos de producción de sonido, como voces e instrumentos musicales, instrumentos de cuerda, instrumentos de viento e instrumentos de percusión. Las características físicas del sonido que determinan la percepción del timbre incluyen el espectro y la envolvente. (Wikipedia) Características comunes:
1. MFCC . Los coeficientes cepstrales de frecuencia de mel son las características ubicuas utilizadas en el reconocimiento de voz. Proporcionan un muy buen conjunto de características de baja dimensión para textura de sonido. En términos simples, los MFCC se pueden definir como “espectro de un espectro”.
2. Ataque. Da una estimación de qué tan rápido suena una nota. ¿Suena como un “golpe” (por ejemplo, piano) o tiene un aumento gradual de la intensidad (por ejemplo, violín)?
3. Cruce por cero. Algo se correlacionó con el tono del sonido. Cuenta el número de veces que la señal cruza el eje x en un tiempo determinado.
4. Características espectrales como centroide espectral, asimetría, diseminación, curtosis y planitud. Estas características se derivan directamente del espectro y dan una representación de la ‘forma’ del espectro de la música y, por lo tanto, del timbre.
Ritmo Ritmo generalmente significa un “movimiento marcado por la sucesión regulada de elementos fuertes y débiles, o de condiciones opuestas o diferentes” (Wiki).
Consulte esta página para conocer las características de ritmo: grupo MIR en IFS, TU Viena.
Dinámica. La dinámica se refiere a las variaciones de volumen en una canción. Las características que representan esto son:
1. Energía RMS. Componente de energía en la señal de audio en función del tiempo.
2. Baja tasa de energía. La curva de energía se puede usar para obtener una evaluación de la distribución temporal de la energía, para ver si permanece constante a lo largo de la señal, o si algunos cuadros son más contrastantes que otros. Una forma de estimar esto consiste en calcular la baja tasa de energía, es decir, el porcentaje de cuadros que muestran una energía inferior a la media.

Si está trabajando en MATLAB, puede mirar este recurso para ayudarlo en la extracción de características del audio: Humanistinen tiedekunta [MIRToolbox for MATLAB].