¿Cuál sería la arquitectura más apropiada para entrenar una red neuronal basada en dos imágenes de entrada?

No hay forma de saber cuál es la mejor arquitectura para esta tarea. Sin embargo, si supone que ambas imágenes siguen la misma distribución, puede usar los mismos filtros para extraer características de ellas. Es razonable que las características que son útiles cuando se extraen de la primera imagen también lo sean cuando se extraen de la segunda imagen.

Esto le daría dos CNN que comparten sus matrices de filtro. Compartir pesos tiene los beneficios habituales de tener menos parámetros para aprender y más datos para entrenarlos con precisión. Menos parámetros también significa menos potencial de sobreajuste. Luego puede combinar las características de más alto nivel de ambas usando algunas capas completamente conectadas.

Sí, este es un caso especial de convoluciones 3D, donde la tercera dimensión tiene un tamaño de filtro de 1 y sin zancadas. Pero creo que es más fácil para ti imaginar dos CNN que comparten sus pesos. Eso también es lo mismo que una CNN aplicada a ambas imágenes. Sin embargo, puede haber mejores arquitecturas, todo depende de su tarea precisa y de cómo la información que contiene depende entre sí.