Aumentar pequeños conjuntos de datos es importante y desafiante. No está agregando mucha información nueva a la red, pero al aumentar los datos está entrenando a la red para que no ajuste demasiado su conjunto de datos con respecto al tipo de aumento.
En una tarea de clasificación de imágenes (por ejemplo, clasificación binaria de perro / gato), si gira la imagen en varios ángulos, está entrenando a la red para que sea invariable a la rotación de los objetos en las imágenes. (Lo mismo para augementation de escala / simulaciones de obstrucción / ruido aleatorio)
Entonces, aunque no se agrega nueva información “auténtica” a la red, el aumento de datos “sintéticos” agregado a la red puede mejorar los resultados obtenidos de la red y permitir la capacitación con menos datos.
- ¿Cuáles son las tendencias en análisis de big data?
- Soy un desarrollador de Java pero quiero hacer un doctorado en ciencia de datos de Canadá. ¿Cuáles son las buenas universidades en Canadá y cuáles son sus requisitos?
- ¿Qué deben saber todos sobre el descenso de gradiente (estocástico)?
- ¿Cuáles son las mejores herramientas utilizadas para el modelado de datos?
- Ciencia de datos: ¿Qué es mejor: Dato o DataRobot?
Es importante tener en cuenta que el aumento solo es útil cuando es semánticamente correcto. No hay razón para aumentar las imágenes de los peatones que cruzan la calle para estar pies arriba cabeza abajo … en datos reales, tal escena es increíblemente improbable, ya que tal aumento de los datos de entrenamiento podría dañar sus resultados.
Buena suerte