Para pasar de dA a dA excesivamente completo, simplemente aumente el número de unidades ocultas. Las características que obtienes de esto generalmente terminan siendo bastante ruidosas. Para resolver el problema del ruido, puede agregar el costo L1 en todos los pesos:
costo de reconstrucción + lambda * log (cosh (100 * w))
La parte después de lambda es el costo L1. Esto generalmente lo hará
- ¿Es un 'predictor de la siguiente palabra' que hice el aprendizaje automático o el procesamiento del lenguaje natural?
- ¿Qué es el modelo log-lineal latente con variables latentes y cómo se entrena tal modelo?
- ¿Cuántas estadísticas y probabilidades debo saber para sumergirme en el aprendizaje automático?
- ¿Cuáles son las preguntas más importantes en el aprendizaje automático?
- Cómo interpretar una capa totalmente conectada como una capa convolucional para hacer predicciones densas de píxeles
Sin costo de escasez:
con costo de dispersión:
Las dos imágenes anteriores se generan utilizando una versión modificada del tutorial dA de Deep Learning. Sin embargo, algunas cosas modificadas:
1. las imágenes de entrada se recortan a 10 × 10 para reducir el tiempo de entrenamiento
2. número de unidades ocultas: 144, por lo que está demasiado completo
3. Costo L1 agregado de la manera especificada arriba