Sí, tendría que agregar capas convolucionales al principio y, por lo tanto, capas deconvolucionales al final. Además de las ventajas de ser receptivo localmente, es importante que al realizar la reconstrucción, no se pierda la estructura espacial en imágenes reales, que de otro modo se perdería al aplanar los píxeles 640 * 480 y tratar la reconstrucción en el sentido tradicional del codificador automático. En segundo lugar, los parámetros compartidos hacen que sea más plausible realizar el aprendizaje sin supervisión en esas dimensiones. Y, por supuesto, tiene las otras ventajas habituales que le ofrecen las redes de capa convolucional para las imágenes. También podría ser bueno experimentar con la combinación y desagrupación de capas. Para desagrupar, tendría que almacenar la ubicación (coordenada de cuadrícula) del máximo en el momento de la agrupación y hacer un desenfoque gaussiano alrededor de la ubicación máxima con el valor máximo obtenido en el espacio agrupado. También hay otros métodos de interpolación, como la interpolación bilineal.
Para obtener detalles sobre las actualizaciones de gradiente, consulte http://people.idsia.ch/~juergen/….
- ¿Los LSTM tienen significativamente más parámetros que los RNN estándar?
- ¿Cómo se puede aplicar el aprendizaje automático en los campos de la ingeniería química y de procesos?
- ¿Cuáles son algunos excelentes boletines semanales de Data Science?
- ¿Cómo podría usar el aprendizaje automático para clasificar los datos 1D?
- ¿Qué es un método de kernel en el contexto del aprendizaje automático?