¿Se consideran obsoletos los métodos de preentrenamiento sin supervisión y pre-entrenamiento codiciosos en capas para el aprendizaje profundo moderno? ¿Por qué o por qué no?

A2A. De vez en cuando todavía escucho algo usando el pre-entrenamiento (como en la forma 2006-08, donde se entrena una arquitectura no supervisada, tal vez por entrenamiento codicioso en capas de máquinas Boltzmann restringidas o autoencoders de ruido, seguido de una fase de ajuste supervisado). Sin embargo, ahora hay una gran cantidad de otras formas de componer y entrenar arquitecturas más profundas, por lo que el uso de la capacitación previa ciertamente ha disminuido.

Una gran parte de la razón por la cual el entrenamiento previo cayó en desgracia fue que se convirtió en un arte aún más oscuro de lo que ya era el entrenamiento de redes neuronales. Una vez que se notificó a la comunidad el abandono (y las variaciones), los esquemas de tasa de aprendizaje adaptativo y mejores funciones de activación (es decir, lineal rectificado, máximo, local-ganador-toma-todo), la capacitación de redes profundas se hizo mucho más fácil y a menudo obtuvieron los mismos resultados, si no mejores, que el entrenamiento previo produciría (especialmente en el caso del aprendizaje supervisado).

La forma en que el pre-entrenamiento sigue vivo es a través del entrenamiento híbrido en el caso del aprendizaje semi-supervisado, donde pretendemos construir un modelo profundo que sea a la vez discriminatorio y generativo, la esencia de algunas de mis propias investigaciones y todas aquellas que construí encima de (ver: ¿Los datos sin etiquetar realmente ayudan en el aprendizaje semi-supervisado?). Las redes de escalera (como se señala correctamente en la respuesta de Austin) son uno de los muchos ejemplos modernos de cómo se puede realizar la capacitación conjunta =]. La razón principal por la que un modelo híbrido funciona para el aprendizaje semi-supervisado es que el objetivo (o término) generativo del conjunto La función de pérdida de objetivos múltiples funciona como un regularizador dependiente del conjunto de datos de la arquitectura discriminativa (aunque hay otros beneficios más interesantes de aprender un híbrido, sin embargo, si el objetivo es mejorar la capacidad discriminativa y se cumplen ciertos supuestos sobre los datos , el enfoque a menudo funciona razonablemente bien).

Se acepta que en los casos en que hay un exceso de datos, los modelos puramente supervisados ​​son superiores a los que utilizan métodos no supervisados. Sin embargo, en los casos en que los datos o el etiquetado son limitados, los enfoques no supervisados ​​ayudan a inicializar y regularizar adecuadamente el modelo, lo que proporciona un rendimiento mejorado.

La capacitación previa es esencialmente obsoleta, dado el éxito del aprendizaje semi-supervisado que logra las mismas metas de manera más elegante al optimizar simultáneamente objetivos no supervisados ​​y supervisados.

Aprendizaje semi-supervisado con Ladder Networks

Las respuestas dadas son buenas. El entrenamiento previo de una forma u otra es EXTREMADAMENTE útil en muchos entornos. Para el aprendizaje semi-supervisado, es mejor entrenar conjuntamente tanto con el objetivo supervisado como sin supervisar, como lo hicimos Hugo Larochelle y yo en nuestro documento de 2008 ICML sobre RBM discriminatorias. Vea también las redes Ladder y el reciente trabajo de ICML por Honglak Lee para obtener resultados bastante impresionantes (con pre-entrenamiento y entrenamiento conjunto, es decir, una forma de aprendizaje curricular).

Si entrena una red grande en un pequeño conjunto de datos etiquetado, se sobreajustará. El uso de entrenamiento previo sin supervisión evita este sobreajuste al proporcionar una buena inicialización para el modelo. En campos como Computer Vision, grandes conjuntos de datos etiquetados como Imagenet, MS COCO, están disponibles públicamente. Los modelos entrenados en estos conjuntos de datos también funcionan bien en otros conjuntos de datos. Por lo tanto, la mayoría de los investigadores de Computer Vision ya no utilizan pre-entrenamiento sin supervisión, y entrenan directamente sus modelos en estos grandes conjuntos de datos etiquetados.

La capacitación previa no supervisada sigue siendo relevante para las tareas para las que tenemos conjuntos de datos etiquetados pequeños y conjuntos de datos grandes sin etiquetar.

No los llamaría obsoletos, pero actualmente es el caso de que los modelos totalmente supervisados ​​son superiores a los no supervisados. Vea mi otra respuesta sobre el tema Respuesta de Amir Rosenfeld a ¿Cuál es el estado actual del aprendizaje no supervisado profundo?

More Interesting

¿Cuál es la mejor manera de aprender la regresión logística?

¿Ha habido alguna investigación sobre cómo las pérdidas de capacitación en la convergencia de los algoritmos de aprendizaje profundo varían con el tamaño de los datos que ingresan?

¿Cuáles son los propósitos de ganchos y andamios en TensorFlow?

Cómo combinar un clasificador basado en características con un modelo de serie temporal como ARIMA

¿Cuáles son ejemplos cuando es útil generar muestras a partir de un modelo probabilístico?

¿Cómo funciona Hidden Markov compatible con Vector Machine?

Tengo un conjunto de datos con 14 características. Quiero aplicar SVM en él usando R. ¿Cómo puedo?

¿Cómo se hace el cambio de C ++ a Python? Me siento más cómodo con C ++ y lo he estado usando para hacer la mayor parte de mi programación; Me parece que lleva mucho tiempo y Python hace las cosas rápidamente. ¿Cuál es la mejor manera de hacer el cambio?

¿Cómo aprendo el aprendizaje automático y el procesamiento de imágenes para aplicaciones móviles? Por ejemplo, para usar los mismos efectos de filtro en aplicaciones iOS y Android, ¿debería usar Python?

Aprendizaje automático: ¿cuáles son las ventajas de SVM sobre las redes neuronales y k- vecinos más cercanos?

¿Qué piensa Andrew Ng sobre Deep Learning?

Si enseñamos a un programa de aprendizaje automático cómo hacer operaciones aritméticas, ¿sería más rápido o más lento que los humanos?

¿Qué consejo le darías a alguien que acaba de comenzar el curso de Andrew Ng sobre aprendizaje automático?

¿Cómo funcionan los algoritmos súper recursivos en CUDA?

¿Cuántas imágenes necesita un buen sistema de aprendizaje automático para aprender un nuevo concepto?