¿Qué algoritmos (aprendizaje automático y aprendizaje profundo) funcionan con un pequeño conjunto de datos, sin sobreajustarlo?

  1. Entrene previamente en conjuntos de datos relacionados y más grandes y solo entrene las capas superiores. También descubrí que después del entrenamiento, volver a entrenar las funciones principales con una máquina de vectores de soporte (SVM) lo ayuda a sobreajustar menos (ya que puede establecer el parámetro de regularización de forma independiente).
  2. Vea si puede aumentar sus datos. Por ejemplo, para imágenes, agregue compensaciones aleatorias, reescalamiento, rotaciones, volteo.
  3. Utiliza técnicas de regularización. Abandono y pérdida de peso (normalización L2), para redes profundas; o agregue un término de regularización a su función de pérdida para redes poco profundas.
  4. Reduzca su dimensionalidad de entrada si sabe qué dimensiones son relevantes. Por ejemplo, si tiene imágenes en color y sabe que el canal de color es irrelevante para la tarea, convierta primero a escala de grises.
  5. Redes profundas: pre-entrene en tareas auxiliares y luego arregle capas bajas y ajuste la tarea principal. Esto lleva a una representación más genérica.
  6. También redes profundas: use una red existente y congele las capas inferiores.

SVM, regresión lineal y logística, bosques aleatorios (está bien, un poco menos en eso).

También tenga en cuenta que el aprendizaje profundo puede funcionar bien con datos pequeños si se entrena previamente en imagenet o algo así.

More Interesting

¿Por qué los modelos acústicos DNN / HMM son mejores que GMM / HMM?

¿Qué conceptos debería practicar en la programación antes de ir a Machine Learning?

¿A qué laboratorio puedo unirme en Caltech para hacer investigación de aprendizaje automático?

¿Cómo debo implementar la detección de fraude con tarjeta de crédito usando redes neuronales?

¿Cuáles son las funciones básicas del olfato? Al igual que los datos visuales se pueden aproximar en una base 3D (RGB, HSI, etc.), ¿se puede aproximar el olor como una suma lineal de unos pocos olores básicos?

¿Cuál es la mejor manera de manejar un modelo multitarea si las etiquetas de datos de capacitación tienen NA, es decir, no se analizaron todas las muestras para todas las tareas?

Cómo demostrar que una pequeña mejora en un puntaje F es estadísticamente significativa

¿Qué formación matemática se necesita para aprender Deep Learning?

¿Por qué una gran proporción de los nuevos estudiantes de CS optan por especializarse en áreas más nuevas como el aprendizaje automático, la informática social y la informática móvil en lugar de las más antiguas como los sistemas, la arquitectura y las redes?

¿Dónde empiezo a aprender reconocimiento de imágenes con algoritmos de aprendizaje automático?

Qué rama es mejor en THAPAR UNIVERSITY: Computer Science Core (COE) o Hons. ¿En el aprendizaje automático y el análisis de datos (CML)?

¿Por qué el escalado es importante para la clasificación SVM lineal?

¿Qué es mejor para la detección de automóviles: Haar Cascade o HOG?

¿Qué significa decir que las redes neuronales convolucionales comparten cálculos comunes a las regiones superpuestas?

¿Qué piensa Pedro Domingos de la investigación de aprendizaje automático que está ocurriendo en la industria versus la academia?