¿Los sonidos de alta frecuencia consumen más espacio de memoria en la computadora? ¿Qué pasa con una mayor amplitud (volumen)?

Usted pregunta: ¿Los sonidos de alta frecuencia consumen más espacio de memoria en la computadora? ¿Qué pasa con una mayor amplitud (volumen)?

Supongamos que muestreas un sonido usando la modulación de código de pulso, para reproducirlo más tarde (que es la forma común de hacerlo, menos la compresión de datos a través de varios algoritmos con pérdida y sin pérdida).

Si desea poder reproducirlo más tarde con suficiente fidelidad (y minimizar la distorsión), debe tener en cuenta:

  1. cuántas muestras se toman por segundo (es decir, la frecuencia de muestreo);
  2. qué tan precisa es cada muestra (es decir, cuántos bits por muestra)

El teorema de muestreo de Nyquist-Shannon, en síntesis extrema, dice que para representar una frecuencia f a través de muestras, necesita muestrearla a una frecuencia que sea al menos el doble que esa frecuencia (en realidad más que eso, o obtienes distorsión). Por ejemplo, para muestrear adecuadamente un sonido que (puede) contiene frecuencias de hasta 22KHz, debe muestrearlo al menos a 44KHz (esto significa: tomar 44000 muestras por segundo).

Ahora, en algún tipo de sonido, las frecuencias altas no son tan importantes. Por ejemplo, las frecuencias de voz humana en las llamadas de voz del teléfono no son tan altas, y dado que una llamada telefónica es principalmente voz humana, puede saltearla con solo 8KHz, aplicar filtros, reducir el muestreo a 4KHz y aceptar cierta distorsión en la reproducción.

Pero en otro tipo de sonidos (grabación de música clásica, por ejemplo), las frecuencias altas son importantes y mantener la distorsión al mínimo es importante, por lo que la frecuencia de muestreo debe ser necesariamente mucho más alta que eso.

Un compromiso que parecía lo suficientemente bueno fue el que se usó en los discos compactos, con 44100 muestras por segundo (en reproducción).

Entonces, las frecuencias son importantes, ya que más muestras ocupan más espacio en la memoria .


Y luego está el otro aspecto: ¿qué tan precisa debe ser cada muestra (es decir, cuántos bits debemos usar para representar una muestra)?

En aquellos días tenía un Commodore 64 con una grabadora de cassette (y una unidad de disquete 154I, pero esa es otra historia).

Lo importante es que la grabadora tenía una línea que se conectaba directamente a la CPU (un MOS 6510), y si los niveles en esa línea estaban por encima de cierto umbral, un cierto bit en la memoria (en realidad un registro en la CPU que apareció como memoria) mágicamente se convierte en 1, mientras que volvió a cero una vez que el nivel cayó por debajo de ese umbral.

Y funcionó de otra manera también, para grabar en cinta (la dirección fue establecida por un bit diferente).

Esto se usó para implementar programas de grabación y lectura en un cassette de audio compacto ordinario (bastante ubicuo en ese entonces).

Pero esto significaba que también podría poner un cassette de música en la grabadora, presionar play e intentar “muestrearlo” a través de ese único bit.

Esto efectivamente me dio un tamaño de muestra de 1 bit.

La CPU Commodore 64 funcionaba a aproximadamente 1MHz, y un programa que leía ese bit y almacenaba su valor en la memoria en ubicaciones posteriores no requería mucho más que unas pocas decenas de ciclos de CPU para cada muestra.

Esto significaba que podía muestrear a (digamos) 50KHz, pero solo tenía muestras de 1 bit. Al reproducir, la distorsión era horrible, pero la música aún era reconocible.

Las muestras de 1 bit tomadas a 50 kHz se pueden visualizar como una imagen en blanco y negro (sin sombras grises) con una alta resolución.

Obviamente, las cosas en ese caso mejorarán dramáticamente si tiene, digamos 8 bits por muestra (256 niveles de gris), e incluso mejor si tiene más (hasta cierto punto). Y eso funciona de manera similar para los sonidos.

En el caso de los discos compactos de audio, tiene muestras de 16 bits (bueno, en realidad pares de muestras de 16 bits debido a la estereofonía), y para la reproducción generalmente se considera lo suficientemente bueno.

Por lo tanto, el tamaño de la muestra es importante, porque significa más precisión . Más bits por muestra ocupan más espacio en la memoria.

Tenga en cuenta que dije precisión : la amplitud se puede escalar fácilmente hacia arriba y hacia abajo principalmente a voluntad, por lo que el tamaño de la muestra realmente no importa en este caso porque los niveles de sonido se pueden llevar fácilmente dentro de los rangos deseados. Lo que marca la diferencia es la precisión en la medición de los niveles dentro del rango de muestreo.

Mientras que la respuesta de Matteo Ianeselli cubre excelentemente la teoría del sonido a la información codificada como PCM. Creo que hay algunas adiciones que pueden agregar algunos matices.

La mayoría del software funciona en supuestos ya establecidos sobre la fidelidad. En general, el valor predeterminado es 44.1KHz basado en CD, aunque existen variantes (por ejemplo, 22KHz se puede usar para la codificación de reconocimiento de voz, mientras que el software de masterización de sonido, como Logic, puede elegir hacer frecuencias de muestreo muy altas).

Una vez que se establece esta suposición, y generalmente lo son, la velocidad de datos después de ese punto tiene un límite superior . Es decir, puede perder información debido a la frecuencia de muestreo, pero el software generalmente no ajustará la frecuencia de muestreo por usted una vez que haya comenzado la grabación. Por lo tanto, la cantidad de datos grabados es constante (dentro de una sesión) sin importar qué sonidos lleguen al micrófono.

Digo que los datos son un límite superior porque una vez que se han convertido en bits y bytes, deben almacenarse. Aquí es donde entra el códec . Esto es lo que le indica a la computadora cómo guardar los bits y bobs. PCM es un códec sin pérdidas . Guardará todos los datos que lleguen con la misma fidelidad, usando la misma cantidad de bytes, sin importar si es música hermosa o silencio absoluto.

En el otro extremo del espectro hay códecs con pérdida . Para simplificar demasiado, en lugar de escribir los sonidos exactos, describirán el sonido. Por ejemplo, en lugar de grabar cada muestra para silenciarla, solo puede decir “silencio”. Esto ocupa mucho menos espacio, pero perderá algunos matices de los sonidos grabados (en el ejemplo de silencio, pueden perderse sonidos muy silenciosos). Para obtener una explicación más detallada, consulte este artículo de Sound on Sound.

El sonido digital se codifica muy a menudo utilizando códecs con pérdida. La música que escucha en YouTube, iTunes y Spotify está codificada utilizando códecs con pérdida. Vienen en dos variantes de velocidad de bits constante (CBR) y velocidad de bits variable (VBR). Si alguien ha discutido con usted que el sonido puede ocupar más o menos espacio, probablemente sean archivos AAC o MP3 codificados con VBR.

Sí, los sonidos de alta frecuencia requieren más espacio de almacenamiento. Esto se debe al teorema de muestreo de Nyquist-Shannon – Wikipedia

Sí, las amplitudes más altas (en comparación con el nivel de ruido de fondo) de la señal también requieren más espacio. Esto se debe al teorema de Shannon-Hartley: Wikipedia.

Ese tipo de Shannon seguramente pasó mucho tiempo haciendo difícil la transmisión de música.

Depende de cómo se codifica.

En general, un tono de alta frecuencia ocupa el mismo espacio que un tono de baja frecuencia … un tono puro usa solo dos números para codificarlo (frecuencia y amplitud).

Cuantos más números necesite para codificar algo, más espacio necesitará para almacenar la grabación. Cuanto más complicado sea el sonido, más números necesitarás.

No hay ninguna razón especial para que un sonido de alta frecuencia requiera más datos que un sonido de baja frecuencia.

Una vez que haya arreglado una cadena de grabación (dispositivos y configuraciones) no .

Las formas de onda sin comprimir codificadas con PCM (modulación de código de pulso) ocupan una cantidad fija de espacio por muestra. Esa muestra puede ser CC (frecuencia cero) o ser parte de una forma de onda sinusoidal a la frecuencia representable más alta, y ocupará el mismo espacio; puede contener silencio o ser la mayor amplitud representable, ocupará el mismo espacio.

Para formas de onda comprimidas, depende de los códecs. La mayoría de los códecs son básicamente invariables para el cambio de ganancia y frecuencia, y en su mayoría se preocupan por la cantidad de información contenida en la señal, por lo que la respuesta es prácticamente siempre ni siquiera para el sonido comprimido.

Sin embargo, es completamente posible que pueda encontrar casos de esquina para un códec dado, y crear una forma de onda de entrada con propiedades específicas que el codificador codifique un poco más o menos eficientemente.

Esperaría que las diferencias de huella de salida sean insignificantes para cualquier códec bien diseñado.

La vista básica es, no, todos los sonidos se muestrean y almacenan de la misma manera dentro de un tipo de codificación seleccionado, para la mayoría de los tipos. El volumen y el tono no afectan el almacenamiento.

Lo que sí afecta el tamaño de almacenamiento es el valor de la frecuencia de muestreo y el tipo de compresión utilizado en el esquema de codificación. Para frecuencias de muestreo bajas, la calidad del sonido es peor pero el almacenamiento es menor.

Es la frecuencia de muestreo que determina el tamaño del archivo para audio sin comprimir. Los factores mencionados no tienen ningún efecto, pero un algoritmo de compresión podría reducir el tamaño del archivo de manera diferente para diferentes frecuencias de sonido.