¿Cómo se puede estimar la percepción de profundidad con visión monocular? La tecnología cambia la vida futura

Hay muchos enfoques.

Paralaje de movimiento. Mueve la cabeza del robot. El movimiento aparente (angular) de los objetos cercanos será mayor que el de los objetos lejanos.

Perspectiva. Por ejemplo, si cada esfera que encuentra el robot es del mismo tamaño, su distancia de la cámara se puede estimar por el número de píxeles del radio observado.

Qué tan rápido calcula el cerebro la información visual. ¿Desde la luz llega al ojo hasta la "conciencia" de la impresión? ¿Y cómo viaja la información?
¿Cómo funcionan juntos UX e IA?
¿Cuál es su opinión sobre el argumento de la habitación china de John Searle?
¿Cómo podemos combinar dos redes neuronales profundas y entrenarlas de extremo a extremo?
¿Hay alguna relación entre las máquinas de Turing, la integridad de Godel y los teoremas de incompletitud?

Medio ambiente. Cubra el piso, las paredes y el techo con papel cuadriculado. La distancia y el tamaño de un cubo sentado en el suelo debería ser mucho más fácil de calcular.

Usa una cámara pleóptica. Sin embargo, esta opción puede considerarse trampa, porque se podría argumentar que una cámara pleóptica realmente tiene muchas lentes.

Manipulación. Mueva el brazo del robot directamente lejos de la cámara en la dirección del objeto. Cuando el brazo toca algo, encuentra resistencia o el objeto está visiblemente perturbado (suponiendo que no haya otros agentes en el entorno que puedan perturbar el objeto), la posición del extremo del brazo es la posición del comienzo del objeto.

Luminosidad. El brillo aparente de un objeto debido a la luz reflejada por una lámpara está relacionado con la distancia de la lámpara, por lo que si se conocen las propiedades de reflectividad de cada objeto, colocar una lámpara cerca de la cámara (y eliminar todas las demás fuentes de luz) hará que el brillo esté relacionado con distancia de la cámara.

Se me ocurrió una idea de que si tuviera una habitación oscura, una lámpara a la izquierda de la cámara y una lámpara a la derecha de la cámara, tomar una foto para cada lámpara podría proporcionar información de profundidad: si el ángulo de la cámara la sombra proyectada en una foto es muy diferente del ángulo de la sombra en la otra, está cerca; Si los ángulos de las sombras son casi iguales, está muy lejos. ( EDITAR: Esto no funcionará, por ejemplo, en una barra horizontal que recorre todo el ancho del campo de visión. Una tercera lámpara, por encima de la cámara, podría ayudar).

Oclusión. Si la escena consta de esferas, y se encuentra una forma de media luna en la imagen, debe ser de una esfera que esté parcialmente obstruida por, y por lo tanto, detrás de otra esfera. Esto no da un valor para la profundidad, pero al menos da un orden, más cercano al más lejano, para algunos objetos.