Cómo medir cómo suenan dos señales similares

De manera similar, ¿en qué aspecto?
Hay varias características que nos informan sobre la similitud de los sonidos. Por ejemplo, si estás escuchando un violín y una flauta tocar una pieza de música al mismo tiempo, ¿qué te hace diferenciar entre los dos? O de otra manera, ¿qué te hace pensar que están tocando la misma música?

Esto es puramente perceptivo. Si nunca antes había escuchado un violín o una flauta en su vida, percibirá esa música como la que proviene de un solo instrumento (probablemente llamado VioFlute). Pero no, obviamente los habrías escuchado antes y tu cerebro tiene sus características almacenadas en él: el centroide espectral o tal vez la envoltura espectral. Las características que cuantifican Timbre Timbre (el diferenciador entre violín y flauta). Sabes que están tocando la misma música porque percibes el mismo tono de contorno de tono (música) para ambos instrumentos.

¿La similitud no está en Timbre o Pitch sino en otra cosa? ¿Quizás dos personas pronunciando la misma palabra? Los sistemas de reconocimiento automático de voz (ASR) de última generación utilizan ciertas características que cuantifican este aspecto. Pueden ser coeficientes cepstrales de frecuencia Mel (MFCC), coeficientes de predicción lineal perceptual (PLP), etc. Estas características fueron formuladas, inspiradas en cómo nuestros oídos escuchan los sonidos, los procesan, etc. Por ejemplo, las palabras “Uno” / əʊn / y “Siete” / ˈsɛv (ə) n / contienen características similares (probablemente debido al fonema final) que los sistemas de reconocimiento de dígitos se confunden entre sí. Mire cuán similares son sus diagramas de distancia de deformación dinámica del tiempo (DTW) (tomé MFCC de las expresiones “uno” y “siete”):


Ahora, ¿qué pasa si escuchas dos sonidos con gran similitud acústica pero ocurren en diferentes puntos en el tiempo (no alineados en el tiempo)? Hay varios algoritmos que deforman el eje del tiempo y calculan la similitud. Estos algoritmos están inspirados en el algoritmo de subsecuencia común más largo (LCS) basado en programación dinámica. Punto final sin restricciones La deformación dinámica del tiempo, la subsecuencia común más larga y aproximada, etc., son ejemplos de este tipo.

Existe un algoritmo estandarizado para la medición perceptiva de la calidad de audio:
Wikipedia: PEAQ

Normalmente, estos algoritmos se utilizan para comparar, por ejemplo, una grabación codificada AAC con la señal de referencia original, pero también pueden comparar dos señales cualesquiera. Los modelos toman la psicoacústica y pueden considerarse como una señal transformada en un dominio que modela la audición humana.

Es necesario alinear en el tiempo las señales al principio y las señales de diferentes longitudes, pero el mismo contenido (la misma música que se reproduce más lentamente) generalmente no funcionará.