¿Cómo se pueden extender los codificadores automáticos a tamaños de imagen realistas como 640 x 480 o más?

Sí, tendría que agregar capas convolucionales al principio y, por lo tanto, capas deconvolucionales al final. Además de las ventajas de ser receptivo localmente, es importante que al realizar la reconstrucción, no se pierda la estructura espacial en imágenes reales, que de otro modo se perdería al aplanar los píxeles 640 * 480 y tratar la reconstrucción en el sentido tradicional del codificador automático. En segundo lugar, los parámetros compartidos hacen que sea más plausible realizar el aprendizaje sin supervisión en esas dimensiones. Y, por supuesto, tiene las otras ventajas habituales que le ofrecen las redes de capa convolucional para las imágenes. También podría ser bueno experimentar con la combinación y desagrupación de capas. Para desagrupar, tendría que almacenar la ubicación (coordenada de cuadrícula) del máximo en el momento de la agrupación y hacer un desenfoque gaussiano alrededor de la ubicación máxima con el valor máximo obtenido en el espacio agrupado. También hay otros métodos de interpolación, como la interpolación bilineal.

Para obtener detalles sobre las actualizaciones de gradiente, consulte http://people.idsia.ch/~juergen/….