Digamos que está entrenando una red de dos capas, donde cada capa tiene N parámetros y cada parámetro puede tomar M valores distintos.
Si entrena las capas conjuntamente, su espacio de búsqueda tiene puntos M ^ (N + N), mientras que si entrena las capas por separado, busca entre los puntos M ^ N y luego separadamente entre los puntos M ^ N para la siguiente capa.
En el caso conjunto, el espacio de búsqueda es exponencialmente mayor que en el caso del apilamiento. En consecuencia, tiene una mejor capacidad de expresión, ¡pero también es propenso al sobreajuste!
- ¿Cómo y dónde podemos comenzar a implementar proyectos basados en el aprendizaje automático y qué idioma es preferible para el mismo?
- Cómo medir qué tan bueno es un modelo generativo
- Al entrenar y probar conjuntos de datos, ¿es posible probar un conjunto de datos completamente diferente del conjunto de entrenamiento?
- ¿Qué piensan los expertos en sistemas de recomendación sobre el documento 'Estimación del impacto causal de los sistemas de recomendación a partir de datos de observación'?
- ¿Cómo puedo encontrar un grupo de estudio para el aprendizaje automático en Hong Kong?
Entonces, si tiene suficientes datos de entrenamiento, el entrenamiento conjunto de capas siempre será superior al apilamiento. Si no lo hace, entonces el apilamiento podría ser útil.
Incluso en el contexto de la formación conjunta de capas, está surgiendo un paradigma interesante de “aprendizaje supervisado en profundidad”; donde aplica la supervisión a capas individuales o bloques de capas mientras entrena conjuntamente la red general. Aunque no es estrictamente exacto, puede pensar en esto como una recuperación del apilamiento en NN profundas entrenadas conjuntamente.
Aquí está el artículo original que habla sobre esta idea, con detalles matemáticos y empíricos significativos:
http://www.jmlr.org/proceedings/…
Aquí hay un documento que enviamos recientemente, que explota esta idea para entrenar CNN profundos utilizando datos de entrenamiento completamente sintéticos y aún así superar a muchos CNN de última generación capacitados en imágenes reales para diversas tareas:
[1612.02699] Supervisión profunda con conceptos de forma para el análisis de objetos 3D con oclusión