Cómo medir cómo suenan dos señales similares La tecnología cambia la vida futura

Cómo medir cómo suenan dos señales similares

De manera similar, ¿en qué aspecto?
Hay varias características que nos informan sobre la similitud de los sonidos. Por ejemplo, si estás escuchando un violín y una flauta tocar una pieza de música al mismo tiempo, ¿qué te hace diferenciar entre los dos? O de otra manera, ¿qué te hace pensar que están tocando la misma música?

Esto es puramente perceptivo. Si nunca antes había escuchado un violín o una flauta en su vida, percibirá esa música como la que proviene de un solo instrumento (probablemente llamado VioFlute). Pero no, obviamente los habrías escuchado antes y tu cerebro tiene sus características almacenadas en él: el centroide espectral o tal vez la envoltura espectral. Las características que cuantifican Timbre Timbre (el diferenciador entre violín y flauta). Sabes que están tocando la misma música porque percibes el mismo tono de contorno de tono (música) para ambos instrumentos.

¿La similitud no está en Timbre o Pitch sino en otra cosa? ¿Quizás dos personas pronunciando la misma palabra? Los sistemas de reconocimiento automático de voz (ASR) de última generación utilizan ciertas características que cuantifican este aspecto. Pueden ser coeficientes cepstrales de frecuencia Mel (MFCC), coeficientes de predicción lineal perceptual (PLP), etc. Estas características fueron formuladas, inspiradas en cómo nuestros oídos escuchan los sonidos, los procesan, etc. Por ejemplo, las palabras “Uno” / əʊn / y “Siete” / ˈsɛv (ə) n / contienen características similares (probablemente debido al fonema final) que los sistemas de reconocimiento de dígitos se confunden entre sí. Mire cuán similares son sus diagramas de distancia de deformación dinámica del tiempo (DTW) (tomé MFCC de las expresiones “uno” y “siete”):

Ahora, ¿qué pasa si escuchas dos sonidos con gran similitud acústica pero ocurren en diferentes puntos en el tiempo (no alineados en el tiempo)? Hay varios algoritmos que deforman el eje del tiempo y calculan la similitud. Estos algoritmos están inspirados en el algoritmo de subsecuencia común más largo (LCS) basado en programación dinámica. Punto final sin restricciones La deformación dinámica del tiempo, la subsecuencia común más larga y aproximada, etc., son ejemplos de este tipo.

Aprendizaje automáticoProcesamiento de señalProcesamiento de señal digitalSeñalSonido