Porque no hay gradientes de fuga en las redes de 1-2 capas. El fenómeno del gradiente de fuga surge de:
• Los pesos de las redes neuronales generalmente se inicializan en números pequeños y aleatorios. (El aumento de los pesos en magnitud es la forma en que se produce el aprendizaje en una red neuronal. Por lo tanto, inicializar los pesos en grandes números aleatorios equivale a aprender al azar, es decir, no aprender nada).
• Para entrenar una red profunda, calcular el gradiente implica multiplicar los valores de los pesos en las capas. Si se han inicializado muchas capas de pesas en números pequeños, entonces su producto es un número aún más pequeño que conduce a un gradiente de fuga muy pequeño y a la terminación artificialmente temprana del entrenamiento.
- ¿Qué tipo de programas de back-end ejecuta YouTube, como el aprendizaje automático y otros programas funcionales?
- ¿Cuál es una buena manera de entender las dos fórmulas con respecto a este modelo gráfico de probabilidad dado?
- ¿Por qué el bandido multi-armado es un MDP de un estado?
- ¿La asignación de Dirichlet latente es un modelo paramétrico o no paramétrico?
- ¿Existe alguna justificación para usar características explícitas de usuario / elemento en la recomendación de MF?
• Por lo tanto, las redes profundas deben inicializarse de otra manera … por lo tanto, la capacitación previa sin supervisión.
Para redes de 1-2 capas, puede intentar un entrenamiento previo sin supervisión y ver si obtiene mejores resultados que cualquier inicialización que esté utilizando actualmente, pero podría llevar mucho tiempo.