Cómo resolver el problema relacionado con pequeños datos de capacitación que conducen el aprendizaje automático o el aprendizaje profundo

Para el aprendizaje profundo (problemas de visión por computadora) tiene algunas opciones:

  • Aumento de datos: realizado mediante recorte aleatorio, volteo y fluctuación de color de sus imágenes de entrenamiento para clases donde sus datos de entrenamiento son escasos. [1]
  • Validación cruzada [2]: le da a su modelo una exposición total a todos sus datos mientras prueba su modelo de forma independiente con los datos de prueba.
  • Transferencia de conocimiento: utilice un enfoque de recuadro negro utilizando un modelo que se haya entrenado previamente en un conjunto de datos diferente (por ejemplo, ImageNet), congele las capas inferiores del modelo y ajuste las capas finales completamente conectadas en su conjunto de datos.

Notas al pie

[1] Construyendo poderosos modelos de clasificación de imágenes usando muy pocos datos

[2] Validación cruzada (estadísticas) – Wikipedia

Los pequeños datos de capacitación generalmente no son un problema si comprende bien sus datos. Hay muchos conjuntos de datos que tienen menos de 100 puntos de datos [1] y se ha trabajado en ellos.

El único problema con una pequeña muestra de datos que puedo ver es que podría no ser representativa de la población. Si puede abordar eso, los datos pequeños no importan.

Para el aprendizaje profundo, un camino a seguir sería el aprendizaje de una sola vez. Se ha trabajado para demostrar que los bosques de aprendizaje profundo son mejores que las redes neuronales cuando se enfrentan a pequeños conjuntos de datos [2].

Notas al pie

[1] Depósito de aprendizaje automático UCI: conjuntos de datos

[2] Hacia una alternativa a las redes neuronales profundas

  • Puede usar el aumento de datos que aumentará la generalización de su conjunto de datos. Por ejemplo, si está clasificando imágenes de sillas, pero ninguna de sus imágenes en el conjunto de datos incluye una silla de pie porque su conjunto de datos es limitado, entonces usar la rotación como aumento ayudará a generalizar más usando el mismo conjunto de datos.
  • Deberá usar la regularización.
  • Limitar la complejidad. Use un modelo que tenga la complejidad suficiente para sobreajustar, luego comience a experimentar la regularización. El enfoque generalmente aceptado en el aprendizaje profundo es “usar un modelo más complejo de lo que necesita, luego aplicar la regularización”. Pero si la complejidad es mucho más de lo que necesita y su conjunto de datos es muy limitado, puede ser muy difícil regularizar el modelo. Incluso con una fuerte regularización, puede terminar con modelos sobreajustados. Limitar la complejidad corresponde a usar menos profundidad en el aprendizaje profundo. (Pero si los datos con los que está tratando necesitan modelos complejos, como en el caso de clasificar imágenes naturales, no puede disminuir mucho la complejidad).

Para el aprendizaje profundo, el arranque con ruido inyectado podría ayudar. La mayoría de los algoritmos de aprendizaje automático, aparte del aprendizaje profundo, deberían manejar muy bien los tamaños de muestra pequeños.