¿El procesamiento computacional de música / audio va a la zaga del procesamiento visual / de imagen?

No creo que sea realmente tan lejos si soy honesto. Hay algunas herramientas increíbles disponibles cuando busca crear sus propios dispositivos con Max MSP (o Max for Live si es un usuario de Ableton). Max ofrece algunas herramientas increíblemente creativas que utilizan técnicas de muestra / retención y seguimiento de sobres.
Sin embargo, computacionalmente esto es bastante difícil, pero recientemente leí un artículo a través del AES sobre el uso de procesadores gráficos dedicados para DSP, que ofrece casi 100 veces la potencia computacional para el audio. Si esto llega a tener un efecto general, ¡entonces las cosas deberían ponerse realmente emocionantes!
Con respecto a la filtración musical que mencionas, es una ciencia muy difícil, porque nosotros, los humanos inteligentes, podemos escuchar fácilmente la diferencia entre, por ejemplo, un oboe y un clarinete o flauta, pero si tuvieras que tratar de separarlos con solo mirar el espectros de frecuencia en una hoja de papel, ¡es un poco difícil! Es “ fácil ” para una aplicación de computadora como Photoshop detectar un color en particular, pero sería una historia completamente diferente hacer que solo reconozca el brocili en una imagen llena de vegetales verdes mezclados.
Finalmente, también creo que hay un poco menos interés de los consumidores, ya que nosotros, los productores e ingenieros de música, odiamos el cambio y también creemos que “si no está roto, no lo arreglen”.
Espero que esto ayude un poco.

La tecnología visual en este momento tiende a estar por delante del audio, históricamente ha sido así, tuvimos la imprenta mucho tiempo antes de tener un medio para imprimir registros.

Otra forma de verlo es que la cantidad de ancho de banda requerida para las imágenes es menor que el audio. Por el espacio de un mp3 comprimido tres, puede tener cientos de imágenes comprimidas. Esto también podría explicar el retraso. La diferencia en el ancho de banda es relativa. Cuantos más procesadores de potencia obtengan, menor será el retraso entre lo visual y el audio.

En este punto, diría que la síntesis de convolución, que es capaz de imponer los aspectos de un sonido sobre otro, no está muy extendida, pero ciertamente está disponible. Soy dueño de CS5 Master Suite y comparo el software de música que también instalé (Omnisphere, Reaktor, Alchemy …) para que sea el equivalente sonoro.

nosotros
parece estar bastante lejos de poder aplicar un nivel musical superior
“filtros” (quizás dando a la canción una sensación de ‘salsa’ o alejándola de
mayor a menor) o ser capaz de obtener ritmo derivado computacionalmente
sugerencias para una canción, etc.

KARMA http://www.karma-lab.com/people/ …, con licencia de Korg, ha estado disponible desde hace algún tiempo, así como la serie Tyros de Roland. Ableton Live tiene agrupaciones de groove y capacidades de deformación de pista / tiempo, Stylus RMX 1.9 tiene diseñadores de tiempo y caos disponibles para cualquier grupo de edición que permita polirritmos y ritmos complejos, Reaktor tiene generadores de sonido, sintetizadores secuenciados, cajas de ritmos y herramientas de manipulación de muestras. También hay generadores de frases como Motiff o 7Aliens Catanya o características del FL Studio Piano Roll. Además de los “kits de construcción” de gazillion loop disponibles, es sorprendente que se haga todo lo original.

Al igual que Photoshop engaña al ojo inexperto, las bibliotecas de muestras masivas, MIDI y una mezcla decente pueden engañar a la mayoría de las personas para que crean que también es real.

Sin embargo, estoy de acuerdo en que hay una frontera sonora que no se ha materializado completamente en los ámbitos del sonido envolvente y la interactividad. Los entornos de escucha y mezcla, en general, no admiten una experiencia 5.1. Creo que en los próximos diez años veremos una nueva generación de algoritmos psicoacústicos que emulan los espacios envolventes y binaurales mediante el uso de una configuración estéreo convencional. También veo la adaptación más generalizada de la ropa y dispositivos biométricos para alterar la música en tiempo real, al igual que un videojuego cambia los sonidos según el juego. Sin embargo, primero se usará para entregar publicidad dirigida que depende de su estado biológico actual: hambriento recibe un determinado anuncio, cansado de otro, enojado y otro más, excitado. . Bienvenido a la máquina / matriz.