Supongo que por “no epipolar” te refieres a imágenes de línea de base (ultra) amplias. A partir de tales imágenes, incluso los humanos no pueden inferir la forma 3D de una nueva forma de objeto, excepto tratando de imponer plantillas de formas que hayan visto en el pasado. Si las imágenes son solo de regiones parciales (lo que ustedes llaman ‘partes’) del objeto, mientras están muy separadas en el espacio de visualización, es aún más difícil / mal planteado / imposible.
Dicho esto, los siguientes dos trabajos recientes pueden reconstruirse a partir de vistas únicas [1] o múltiples [2], después de ser entrenados en varias clases de objetos (representaciones de modelos CAD en 3D como entrada frente a representación volumétrica del modelo CAD como salida) . [2] está entrenado para predecir representaciones volumétricas directamente (en la pérdida), mientras que [1] trata de “aprender” tallar espacios girando la representación volumétrica de forma semi-supervisada hasta que coincida con la silueta de la forma.
[1] http://papers.nips.cc/paper/6205…
- ¿Qué idiomas debo aprender antes de comenzar a aprender sobre IA?
- ¿Cómo se usan las redes neuronales en el procesamiento del lenguaje natural?
- ¿Funcionarán múltiples electrodomésticos en un sistema operativo uniforme en el futuro? o simplemente hay una necesidad de trabajar en esta dirección? ¿Si es así, entonces cómo?
- ¿Cómo obtiene Prismatic el contenido principal de cada artículo de noticias?
- ¿Qué diferencia exactamente una red neuronal recurrente de una red de alimentación directa con una ventana de tiempo limitado?
[2] https://arxiv.org/pdf/1604.00449…