- Entrene previamente en conjuntos de datos relacionados y más grandes y solo entrene las capas superiores. También descubrí que después del entrenamiento, volver a entrenar las funciones principales con una máquina de vectores de soporte (SVM) lo ayuda a sobreajustar menos (ya que puede establecer el parámetro de regularización de forma independiente).
- Vea si puede aumentar sus datos. Por ejemplo, para imágenes, agregue compensaciones aleatorias, reescalamiento, rotaciones, volteo.
- Utiliza técnicas de regularización. Abandono y pérdida de peso (normalización L2), para redes profundas; o agregue un término de regularización a su función de pérdida para redes poco profundas.
- Reduzca su dimensionalidad de entrada si sabe qué dimensiones son relevantes. Por ejemplo, si tiene imágenes en color y sabe que el canal de color es irrelevante para la tarea, convierta primero a escala de grises.
- Redes profundas: pre-entrene en tareas auxiliares y luego arregle capas bajas y ajuste la tarea principal. Esto lleva a una representación más genérica.
- También redes profundas: use una red existente y congele las capas inferiores.
¿Qué algoritmos (aprendizaje automático y aprendizaje profundo) funcionan con un pequeño conjunto de datos, sin sobreajustarlo?
Related Content
SVM, regresión lineal y logística, bosques aleatorios (está bien, un poco menos en eso).
También tenga en cuenta que el aprendizaje profundo puede funcionar bien con datos pequeños si se entrena previamente en imagenet o algo así.
More Interesting
¿Por qué los modelos acústicos DNN / HMM son mejores que GMM / HMM?
¿Qué conceptos debería practicar en la programación antes de ir a Machine Learning?
¿A qué laboratorio puedo unirme en Caltech para hacer investigación de aprendizaje automático?
¿Cómo debo implementar la detección de fraude con tarjeta de crédito usando redes neuronales?
Cómo demostrar que una pequeña mejora en un puntaje F es estadísticamente significativa
¿Qué formación matemática se necesita para aprender Deep Learning?
¿Dónde empiezo a aprender reconocimiento de imágenes con algoritmos de aprendizaje automático?
¿Por qué el escalado es importante para la clasificación SVM lineal?
¿Qué es mejor para la detección de automóviles: Haar Cascade o HOG?