Supongo que está preguntando si el entrenamiento codicioso más el ajuste funciona mejor que solo entrenar desde cero con la propagación hacia atrás.
En ese caso, la respuesta es sí para redes profundas porque es muy difícil entrenar a toda la red con backprop debido al problema del gradiente de fuga. Sus últimas capas aprenderán rápidamente, pero su primera capa, la que conecta los datos de entrada a la primera capa de unidades ocultas, aprenderá tan lentamente que será casi idéntica a la inicialización aleatoria.
Esto no depende del tamaño del conjunto de datos, sino del número de niveles en la red. Las redes poco profundas se pueden entrenar con backprop, las redes profundas son mejores con un entrenamiento codicioso capa por capa y luego backprop para afinar los resultados.
- ¿Cuál es la diferencia entre rpart y randomForest en R?
- ¿El aprendizaje automático va a derrocar al sistema dinámico?
- ¿Cuáles son los tipos de problemas que se pueden resolver con las redes neuronales?
- Cómo construir la matriz del núcleo para un polinomio de grado finito
- ¿Puedo usar word2vec para entrenar un clasificador de aprendizaje automático?
Tenga en cuenta que cuando ajusta el resultado final, realmente no está aprendiendo, sino que está optimizando una red ya existente para que sus resultados solo puedan mejorar.