¿Qué información adicional se almacena en una foto RAW o DNG en comparación con una JPEG, y cómo se registra esta información? La tecnología cambia la vida futura

Un sensor de cámara se basa en fotodiodos, pequeños dispositivos que cambian su corriente en función de la exposición a los fotones. Originalmente, los chips para estos fotodiodos formados en la capa inferior y corrían alrededor de la electrónica, dejando una abertura pero limitando la luz que puede pasar. Los sensores más modernos se denominan sensores “iluminados en la parte trasera”, ya que la matriz de fotodiodos está construida en la parte inferior, la electrónica en capas en la parte superior, luego el chip se voltea, de modo que la parte inferior anterior del chip ahora está pulida y expuesta.

Los fotodiodos son naturalmente sensibles a un amplio espectro de luz, por lo que la mayoría de las cámaras incluyen una serie de filtros de colores sobre la matriz de fotodiodos, uno por píxel. Y sí, esto significa que cada píxel mide la luz roja, verde o azul. Esta configuración fue inventada por Bryce E. Bayer en Kodak, por lo que se ha denominado el sensor Bayer.

En capas sobre el filtro de color hay una serie de microlentes, que sirven para concentrar mejor la luz en cada fotodiodo.

Cuando toma una foto, la cámara lee esta matriz de píxeles RGB como datos digitales. Los fotones que golpean un fotodiodo acumulan una carga en un “pozo de carga”, uno por píxel. En un sensor CMOS moderno, esta carga se convierte en un voltaje, ese voltaje se ejecuta a través de un bloque de ganancia (el bloque AGC en el diagrama) y en un convertidor analógico a digital (ADC). En la mayoría de las cámaras profesionales, ese ADC tiene una precisión de entre 12 y 14 bits, pero en un teléfono inteligente u otra cámara pequeña, puede tener solo 12 bits.

Ahora, si está tomando una foto sin procesar, el archivo de imagen sin procesar es básicamente solo esta matriz de 12 bits por píxel o de 14 bits por píxel. Habrá varios bits de datos sobre la exposición, etc., escritos junto con esos datos sin procesar, generalmente en formato de etiqueta EXIF, lo que significa que puede leer eso en aplicaciones como Adobe LightRoom. Los archivos sin formato son propulares porque son eficientes en el almacenamiento, pero aún contienen toda la información de su toma. Y dado que se basan en el diseño específico del sensor de su cámara, los archivos sin formato son específicos de la cámara, no realmente un estándar. Cada archivo RAW tiene un lector específico de cámara para su contenido … Adobe empaqueta todo esto en una biblioteca llamada Camera Raw, que se actualizan regularmente con el lanzamiento de nuevas cámaras.

Un archivo DNG (Digital Negative – Wikipedia) contiene la misma información, pero en un formato más estandarizado. Adobe estuvo trabajando con la decodificación en bruto durante más de una década cuando decidieron que sería útil tener una alternativa más estándar a los archivos en bruto. Cada nueva cámara sin espejo o DSLR que sale necesita un nuevo soporte para sus archivos sin formato, porque, por supuesto, el contenido del archivo sin formato es único para esa cámara específica, a pesar de que todos contienen información similar. Pero casi todos los teléfonos inteligentes Android usan DNG, por lo que los teléfonos nuevos generalmente solo funcionan con herramientas estándar. DNG, como algunos archivos sin procesar propietarios, se basa en el estándar de archivo TIFF / EP para el almacenamiento de fotos sin pérdidas.

Cuando haces un JPEG, solo entonces es hora de comenzar a tirar información. Lo primero que hacemos es “DeBayer” o “demosaic”. Ese conjunto de colores RGB, como se mencionó, le proporciona píxeles de colores individuales. El genio de este patten es que cada píxel está cerca de los de los otros dos colores. Entonces tienes un píxel rojo … hay píxeles verdes vertical y horizontalmente, píxeles azules a lo largo de la diagonal. La interpolación entre los píxeles circundantes ofrece una suposición bastante buena sobre el color que falta para ese píxel específico. Una vez que esto se completa, hay una imagen a 30, 36, incluso 42 bits por píxel.

Para hacer el JPEG, esto se convierte de la imagen interpolada de 42 bits o lo que sea a una imagen YCrCb (Y es una señal de luminancia, Cr y Cb representan componentes de color), el formato utilizado para JPEG. Esto se submuestrea, lo que significa que se tiran cada dos (4: 2: 2) o tres de cada cuatro (4: 2: 0) muestras de color.

Luego viene la transformada discreta del coseno , una operación que convierte bloques de 8 × 8 de datos de píxeles en bloques de 8 × 8 de datos de espectro de frecuencia espacial, similar a una Transformada de Fourier . Aquí hay una pequeña pérdida de redondeo, pero la operación es esencialmente reversible. Sin embargo, a continuación, hay otra operación con pérdidas. Según los parámetros JPEG, una parte de cada bloque de 8 × 8 píxeles se pone a cero, lo que, gracias a que ahora es información basada en la frecuencia, es la misma idea que ejecutar una operación de filtro de paso bajo. Y finalmente, las restantes celdas 8 × 8 se comprimen usando una codificación de entropía sin pérdidas basada en la codificación de Huffmann.

La relación de compresión real no se establece directamente. Al codificar un JPEG, la configuración Q (calidad) determina qué tan agresivas se filtran las celdas DCT, lo que tiene el mayor efecto en el tamaño comprimido, pero la relación real también depende del contenido de la imagen. Algunas personas en Graphics Mill Image Processing hicieron un análisis de las relaciones de compresión sobre sesenta fotos, y encontraron un promedio de 5.27: 1 en Q = 100, 26.0: 1 en Q = 75, y 43.27: 1 en Q = 55 … compresión bastante sustancial en ese punto.