Que tiene sentido. Porque la idea en el aprendizaje profundo es no tener datos más grandes de lo que una red puede manejar. Todo lo contrario: la idea es tener un modelo que tenga una capacidad mayor que suficiente para hacer generalizaciones en un conjunto de datos dado. Esto significa que, idealmente, su red debería ser lo suficientemente grande como para ajustarse en exceso a su conjunto de datos. Una vez que esté seguro de que la red puede ajustarse en exceso a su conjunto de entrenamiento, debe introducir la regularización l2 (u otro tipo de) para optimizar el proceso de entrenamiento.
Pero a veces, si el conjunto de datos es demasiado grande y sus recursos de hardware o el tiempo no es suficiente para usar una red lo suficientemente grande como para sobreajustar, puede ser razonable omitir la regularización, con el riesgo de tener resultados subóptimos. Simplemente verifique las curvas de aprendizaje de los conjuntos de capacitación y validación sin regularización. Si hagas lo que hagas, no ves un ajuste excesivo, entonces usar la regularización l2 puede no tener sentido en este caso. Pero el abandono puede intentarse en cualquier caso, porque funciona de manera diferente en comparación con l2. Obliga a las sub partes de la red a aprender mejor al cerrar otras partes.
- Cómo interpretar una capa totalmente conectada como una capa convolucional para hacer predicciones densas de píxeles
- ¿Qué es el mecanismo de atención en redes neuronales?
- Cómo usar un árbol de decisión para construir datos sintéticamente
- ¿Cómo puedo usar el modelo oculto de Markov sin supervisión para detectar y corregir palabras dobles?
- ¿Pueden los algoritmos de aprendizaje profundo predecir los resultados de los partidos deportivos?