¿Qué criterios deberían ser apropiados para terminar el entrenamiento codicioso no supervisado de autoencoder por capas?

Con una capacitación no supervisada, creo que un conjunto de validación no siempre es necesario. Uno mantiene un conjunto de validación durante la capacitación supervisada porque le importan los errores de generalización: lo que importa no es qué tan bien se desempeña su modelo en los datos de capacitación, sino qué tan bien se desempeña en los datos de prueba (sin etiqueta). Con un entrenamiento no supervisado, los datos de prueba sin etiquetar pueden ser parte de su conjunto de entrenamiento.

De cualquier manera, el criterio de detención es el mismo: controla la pérdida y deja de entrenar cuando ya no mejore. Es posible quedar atrapado en una meseta de la que podría salir, así que no se detenga de inmediato (a menos que la pérdida esté empeorando). También considere disminuir la tasa de aprendizaje cuando la pérdida deje de mejorar; a veces puede mejorar aún más con una tasa de aprendizaje menor

Normalmente usan la Detención temprana: mantenga un conjunto de validación (algunos datos que no usará para la capacitación, sino para diagnosticar el progreso de su sistema)

Al igual que rastrea el error de entrenamiento, también siga rastreando el error en este conjunto de validación, cuando descubra que el error de validación comienza a aumentar (incluso si el error de entrenamiento no aumenta), lo que hace debido al sobreajuste, detenga el entrenamiento. Esto se puede hacer para cada capa.