¿El ajuste fino funciona mejor cada vez que entrenar desde cero?

Supongo que está preguntando si el entrenamiento codicioso más el ajuste funciona mejor que solo entrenar desde cero con la propagación hacia atrás.

En ese caso, la respuesta es sí para redes profundas porque es muy difícil entrenar a toda la red con backprop debido al problema del gradiente de fuga. Sus últimas capas aprenderán rápidamente, pero su primera capa, la que conecta los datos de entrada a la primera capa de unidades ocultas, aprenderá tan lentamente que será casi idéntica a la inicialización aleatoria.

Esto no depende del tamaño del conjunto de datos, sino del número de niveles en la red. Las redes poco profundas se pueden entrenar con backprop, las redes profundas son mejores con un entrenamiento codicioso capa por capa y luego backprop para afinar los resultados.

Tenga en cuenta que cuando ajusta el resultado final, realmente no está aprendiendo, sino que está optimizando una red ya existente para que sus resultados solo puedan mejorar.

Aprendizaje automáticoAprendizaje profundoProgramación informáticaRedes neuronales artificiales

Related Content

¿Cómo puedo comparar diferentes arquitecturas de redes neuronales sin entrenarlas durante semanas? ¿Hay alguna forma práctica de verificar si las redes merecen la capacitación completa o no?

¿Cuál es el significado físico de usar SVD / NMF en una matriz de correlación espacial?

¿Cómo se compara XGBoost (aumento de gradiente) con Random Forest?

¿Cuáles son las mejores medidas de rendimiento para un modelo de detección de anomalías?

¿Cuándo se debe agregar una segunda capa oculta a una red neuronal?

¿Cuáles son los mejores sitios para aprender controladores de dispositivos Linux?

Word2vec: ¿Cómo puede el método de entrenamiento jerárquico soft-max de CBOW garantizar su autoconsistencia?

El ajuste fino es un truco sucio para engañar a los anotadores.
El ajuste fino siempre viene con sobreajuste. En realidad, nunca mejora una arquitectura.

Luis Argerich

More Interesting

Cómo escribir un buen artículo sobre aprendizaje profundo o reforzar el aprendizaje sin la ayuda de un supervisor profesional

¿Existe un método común para detectar la convergencia de la muestra de Gibbs y el algoritmo de maximización de expectativas?

¿Qué tensiones tienen entre sí el diseño de productos y el aprendizaje automático?

¿Por qué las tasas de aceptación de las conferencias de minería de datos son tan bajas y qué tipo de documentos se rechazan?

¿Qué tipo de algoritmos utilizamos para el análisis de sentimientos? ¿Hay alguna lista para los algoritmos y sobre su estructura?

¿Cómo se ve afectada la propagación hacia atrás en NN recurrentes?

¿Por qué una gran proporción de los nuevos estudiantes de CS optan por especializarse en áreas más nuevas como el aprendizaje automático, la informática social y la informática móvil en lugar de las más antiguas como los sistemas, la arquitectura y las redes?

¿Es más fácil construir un vehículo autónomo que un sistema de traducción automática a nivel humano?

¿Cuál es la mejor manera de manejar múltiples brazos en algoritmos de bandidos?

¿Qué algoritmos de aprendizaje automático para la clasificación admiten el aprendizaje en línea?

¿Dónde puedo obtener un conjunto de datos de notas de suicidio para fines de aprendizaje automático?

Cómo aplicar el aprendizaje automático a la realidad virtual / aumentada

¿Cuál es el mejor enfoque para abordar la compensación de exploración / explotación en los sistemas de recomendación?

¿Cuál es más adecuado para un aprendizaje automático de codificador o desarrollo web?

¿Se puede resolver el problema de cauvery utilizando algoritmos de aprendizaje automático?

Web Analytics