¿Qué son los vectores de características basados ​​en cuadros (como se usan en el reconocimiento de voz)?

El sonido es una señal que varía con el tiempo. En el análisis de audio, lo que se hace con mayor frecuencia es segmentar el audio en fragmentos cortos de audio. Llamamos a estos marcos de análisis. Los marcos de análisis, dependiendo de la aplicación, generalmente son fragmentos de 10-250 ms de duración. La mayoría de las veces, también se superponen un poco. Lo que suponemos es que en un fragmento de audio tan corto, el audio realmente no cambia mucho. Esto es útil en algo como el habla, porque cualquier cuadro en realidad solo lleva el “sonido” de una porción muy pequeña del habla. Cosas como “ahhh” suena, “ssss” suena, “ooooh” suena. Estos sonidos atómicos del habla se llaman fonemas. Encadenamos fonemas para formar palabras, palabras, oraciones, etc.

Lo que queremos hacer ahora es extraer características de cada fragmento (marco) de audio. Si bien hay alguna información interesante en la forma de onda de audio real, en general podemos aprender más sobre el audio si sufre una transformación en otro dominio llamado dominio de frecuencia. Esto generalmente se hace a través de la transformada de Fourier (aunque hay otras). En lugar de ver cómo la amplitud de una forma de onda varía con el tiempo dentro del cuadro de análisis, veremos la intensidad de ciertas frecuencias en este cuadro. A esto le llamamos espectro. Si calculamos el espectro de todos los cuadros, tenemos algo llamado espectrograma.

Podemos hacer varias cosas al espectro de cada cuadro. Por lo general, conocemos las fortalezas de muchas frecuencias en cada uno de estos cuadros (¡demasiados!), Por lo que reducimos la dimensionalidad. Combinamos frecuencias cercanas entre sí y deformadas a una escala logarítmica (¡así es como las personas perciben las frecuencias!). Entonces podemos usar una técnica de reducción de dimensionalidad usando transformaciones discretas de coseno para reducir aún más la cantidad de mediciones que tenemos en un marco. Hacer este tipo de cosas nos lleva a nuestro vector de característica de trama más común para el habla llamado MFCC.

El objetivo de todo esto es poder reducir todo lo que sucede en un marco a una docena de números. Eso se convierte en un vector de características para nuestro marco. En general, todo lo que realmente representa es cuán fuertes son ciertas frecuencias en relación con otras en un cuadro dado con solo unos pocos números. Las fuerzas relativas de las frecuencias entre sí contribuyen mucho a lo que hace que dos sonidos suenen de manera diferente entre sí (llamado timbre). Por lo tanto, tenemos una representación compacta del timbre, donde esperamos distinguir la diferencia entre los diferentes tipos de sonidos del teléfono.