A2A. De vez en cuando todavía escucho algo usando el pre-entrenamiento (como en la forma 2006-08, donde se entrena una arquitectura no supervisada, tal vez por entrenamiento codicioso en capas de máquinas Boltzmann restringidas o autoencoders de ruido, seguido de una fase de ajuste supervisado). Sin embargo, ahora hay una gran cantidad de otras formas de componer y entrenar arquitecturas más profundas, por lo que el uso de la capacitación previa ciertamente ha disminuido.
Una gran parte de la razón por la cual el entrenamiento previo cayó en desgracia fue que se convirtió en un arte aún más oscuro de lo que ya era el entrenamiento de redes neuronales. Una vez que se notificó a la comunidad el abandono (y las variaciones), los esquemas de tasa de aprendizaje adaptativo y mejores funciones de activación (es decir, lineal rectificado, máximo, local-ganador-toma-todo), la capacitación de redes profundas se hizo mucho más fácil y a menudo obtuvieron los mismos resultados, si no mejores, que el entrenamiento previo produciría (especialmente en el caso del aprendizaje supervisado).
La forma en que el pre-entrenamiento sigue vivo es a través del entrenamiento híbrido en el caso del aprendizaje semi-supervisado, donde pretendemos construir un modelo profundo que sea a la vez discriminatorio y generativo, la esencia de algunas de mis propias investigaciones y todas aquellas que construí encima de (ver: ¿Los datos sin etiquetar realmente ayudan en el aprendizaje semi-supervisado?). Las redes de escalera (como se señala correctamente en la respuesta de Austin) son uno de los muchos ejemplos modernos de cómo se puede realizar la capacitación conjunta =]. La razón principal por la que un modelo híbrido funciona para el aprendizaje semi-supervisado es que el objetivo (o término) generativo del conjunto La función de pérdida de objetivos múltiples funciona como un regularizador dependiente del conjunto de datos de la arquitectura discriminativa (aunque hay otros beneficios más interesantes de aprender un híbrido, sin embargo, si el objetivo es mejorar la capacidad discriminativa y se cumplen ciertos supuestos sobre los datos , el enfoque a menudo funciona razonablemente bien).
- ¿Qué es el aprendizaje automático basado en modelos?
- Cómo desarrollar software que se afinará
- ¿Cuándo se utilizarían los bosques aleatorios sobre las máquinas potenciadas por gradiente (GBM)?
- ¿Se pueden utilizar bosques aleatorios para la selección de variables? De ser así, ¿cómo?
- ¿Por qué las redes de confrontación generativas son tan creativas?