¿Cuál es una buena explicación de la nueva Transformada de Fourier Rápida y Escasa del MIT para personas no técnicas?

Juguemos un piano ideal.

Las teclas de un piano son tales que cada tecla corresponde a una sola frecuencia específica de sonido. Por ejemplo, una de las frecuencias más conocidas es la media A (440 Hz). Cuando se presiona la tecla A, el audio que escucha es una onda sinusoidal perfecta, que oscila a 440 Hz. Del mismo modo, C central corresponde a una onda de sonido de frecuencia de aproximadamente 261 Hz.

Sin embargo, tocar una nota a la vez es aburrido en el piano, intentemos tocar las dos al mismo tiempo. Lo interesante que sucede aquí es el hecho de que los dos sonidos respectivos se combinan para crear un sonido completamente nuevo y único. Ya no es solo una frecuencia única, es una especie de combinación de las dos. ¡Si se presionan juntos, encontramos que esencialmente se sumarían!

¡Tres notas combinadas en una señal de audio final!

La Transformada rápida de Fourier (FFT) nos permite tomar este nuevo sonido y volver a descomponerlo en las frecuencias originales para ver esencialmente qué teclas componen el acorde. Retrocedamos a solo tocar una nota y veamos un gráfico de ejemplo de la señal original y su FFT.
Los números en este gráfico no son tan importantes como la comprensión de lo que representan estas formas. El gráfico azul en la parte superior representa la onda de audio, la amplitud con respecto al tiempo . Es una frecuencia única y representa tocar solo la nota A. Después de tomar la FFT obtenemos un gráfico de amplitud muy interesante con respecto a la frecuencia . Un solo pico en este gráfico significa una sola frecuencia en nuestra señal original, mientras que la mayoría de las frecuencias no están presentes. Avanzando un poco, en nuestro ejemplo de acordes con dos notas, C y A, ¡nuestro FFT tendría dos picos! Uno aparecería en el mismo lugar, y otro aparecería en una frecuencia más baja. En general, la FFT de una señal emitirá las cantidades de cada frecuencia ‘pura’ que se sumaron para obtener el resultado final.

Agreguemos un cantante para acompañar el piano.

La frecuencia de la voz humana tiene un amplio rango, con muchos de los sonidos (palabras) hechos con combinaciones de muchas de estas frecuencias. Como se ve en la imagen a continuación, una señal de audio puede complicarse mucho. Las FFT respectivas pueden tener miles de frecuencias distintas de cero representadas en alguna proporción (el gráfico rojo anterior tendría miles de picos de diferentes alturas). Incluso un cantante que intenta cantar una F, por ejemplo, terminaría con muchas frecuencias diferentes debido a que la naturaleza de la voz humana no es un instrumento musical ideal.

Señal de audio de varias palabras que se dicen. ¡Claramente no es tan suave y oscilante como nuestra nota A anterior!

Ahora que hemos entendido algo de lo que hace la FFT, echemos un vistazo a la FFT dispersa del MIT. Después de agregar al cantante al piano, tuvimos un acorde de C y A, así como un cantante que intentaba mantener una F creando una señal de audio muy irregular y FFT. ¡El FFT original calcularía las amplitudes de cada frecuencia, pero tal vez podamos aprovechar el hecho de que la mayoría de las frecuencias se agruparán alrededor de C, A y F! Por lo tanto, si solo calculamos la cantidad que estas tres frecuencias contribuyen a la señal de audio final, podremos replicar un sonido lo suficientemente cercano a la partitura musical original. Esto es exactamente lo que hace el Sparse FFT.

Este artículo específico notó que en el caso de las señales de video, el 89% de las frecuencias que existen no son necesarias. Al calcular el Sparse FFT solo con el 11% de las frecuencias, la calidad de la señal no se deteriora demasiado. La noción de qué es una frecuencia y una señal en términos de video se vuelve más técnica, pero la teoría es la misma que para el piano y el cantante.