Si uno hiciera una cámara y una lente como el ojo humano (distancia focal, rendimiento con poca luz, nitidez, velocidad de enfoque, etc.), ¿cuánto costaría? ¿Cuáles son las limitaciones técnicas de crear tal lente?

Ok, comencemos con la retina y simplifiquemos enormemente todo.

Ahí tienes unos 5-6 millones de “píxeles” de color … no es muy difícil de construir. Sin embargo, solo alrededor del 10% de ellos son píxeles sensibles al azul y, sin embargo, el ojo funciona bien al ver el azul. Las cámaras de imágenes de sensores digitales típicas de Bayer tienen sensores 1/4 azul, 1/4 rojo y 1/2 verde.

Pero esas son solo las células cónicas. También hay alrededor de 120 millones de células de barra, que son monocromáticas sensibles solamente. Técnicamente podríamos construir un sensor con 120 millones de píxeles, pero no sería barato. Y nos sentiríamos obligados a emplear más de 6 millones de sensores de color.

El tamaño de la retina, aproximadamente 20 mm, o aproximadamente 3/4 “. Aunque no es exactamente equivalente, eso es justo por debajo del tamaño de los sensores de la cámara EVIL de bolsillo de la serie Nikon One de 1”. La mayoría de las cámaras P&S tienen sensores más pequeños, la mayoría de EVIL y todas las DSLR tienen sensores más grandes.

A continuación, la lente. El ojo tiene una longitud focal de aproximadamente 20 mm. y una apertura de f / 3, hasta alrededor de f / 9 a la luz del sol. Eso no es un problema real para construir … Tengo una lente de 20 mm f / 1.7 en mi cámara Micro Four-Thirds que se detiene en f / 16. Pero esa no es toda la historia, por supuesto. El ojo tiene una sola lente, pero dado que el iris es una superficie esférica, no plana, muchos de los problemas de diseño de la lente están cubiertos. Esa lente Panasonic mencionada anteriormente tiene un conjunto de elementos diseñados para solucionar el problema de proyectar un mundo 3D a través de una lente esférica sobre una superficie plana.

Ahora el verdadero problema. Los teléfonos inteligentes, las cámaras P&S de hoy en día, incluso las cámaras EVIL y DSLR procesan en cierta medida las imágenes entrantes. Es común filtrar el ruido en habitaciones oscuras, detectar líneas, etc. Algunas cámaras pueden promediar o sumar algunas tomas separadas: mi Canon 6D tiene estos modos. Pero todos palidecen en comparación con el ojo.

Para empezar, no hay obturador en el ojo y no hay convertidor digital a analógico. La salida del ojo está codificada y comprimida de varias maneras diferentes, enviada a la corteza visual, en la parte posterior de la cabeza. Y esta entrada continua se promedia continuamente en las imágenes que vemos. Una razón por la que podemos ver bastante bien en la oscuridad es exactamente este procesamiento constante de la imagen: el promedio de una imagen tomada una y otra vez tenderá a promediar el ruido aleatorio.

Y aquí es donde se pone pegajoso … el cerebro humano es una increíble computadora paralela, y eso es más o menos lo que quieres cuando tienes que lidiar con todos estos datos de imágenes en tiempo real. Y este no es el Commodore 64. La computadora más rápida de IBM en algún momento (Blue Gene / L o Blue Gene / P, no recuerdo específicamente, a la mayoría de las personas que trabajan en modelos cerebrales les gusta correr en computadoras Blue Gene), corriendo un modelo de cerebro humano no muy realista, actualmente puede modelar una red neuronal del tamaño del cerebro humano, diseñado para funcionar como un cerebro, en aproximadamente 1200x en tiempo real (por ejemplo, un segundo de tiempo de cerebro es aproximadamente 20 minutos de tiempo de computadora) . Esta computadora es masivamente paralela y admite al menos 160,000 núcleos PowerPC en algunas versiones. Cada núcleo no es más rápido que el núcleo típico de la CPU de su teléfono inteligente, quizás un poco menos. Pero las cosas se suman. Su cámara no obtendrá más de un System On Chip de múltiples núcleos, con teléfono celular o de menor potencia.

Ok, entonces al menos el 20% del cerebro humano está directamente involucrado en el procesamiento de imágenes. Eso significa que, para realmente producir imágenes en una cámara similar a lo que podemos ver y comprender sobre una imagen, necesitaría que el 20% de ese Blue Gene / P se ejecute en tiempo real … en otras palabras, una computadora aproximadamente 240 veces más rápida que una de las computadoras más rápidas del mundo, con el equivalente a casi 10 millones de procesadores de teléfonos inteligentes o cámaras (suponiendo un núcleo cuádruple).

No hay limitaciones técnicas. Las cámaras y lentes digitales ya superan la capacidad del ojo humano.

Una cámara de iPhone en realidad coincide con todas las especificaciones, excepto la resolución y el rango dinámico (pero los programas HDR superan el problema del rango dinámico). Y dado que la nitidez de la percepción del ojo humano es muy limitada fuera del centro de su campo de visión, obtiene una imagen enormemente mejor con un sensor completo de 70MP, como este: el sensor de 70 megapíxeles allana el camino para una resolución digital de ultra alta resolución cámaras | ZDNet.

Ese tipo de cámara basada en un sensor costaría alrededor de $ 5K, lo que no es tan malo para reemplazar un ojo.

Además de la velocidad y la capacidad de ajustar la sensibilidad, la mayor parte de lo sorprendente de nuestra visión proviene de la unidad de procesamiento de imágenes (cerebro).
Nuestro cerebro hace todo el trabajo de arreglar la imagen, incluso agregando cosas que no están allí (luego somos explotados por mentalistas y magos, por ejemplo).

Recuerde también que nuestra visión son imágenes en movimiento, no imágenes fijas. No es necesario obtener una imagen con un amplio rango dinámico, nuestros ojos pueden concentrarse en escanear diferentes partes y unirlas en una imagen general.

Puntos ciegos, enfoque estrecho y campo de visión, cambios extremadamente lentos en su f-stop (iris), aberraciones …

Sí, el ojo humano es realmente una lente muy pobre en general. Como señalaron otros, el cerebro es donde sucede toda la magia.