El aumento de datos significa aumentar el número de puntos de datos. En términos de imágenes, puede significar que aumenta el número de imágenes en el conjunto de datos. En términos de datos tradicionales de formato de fila / columna, significa aumentar el número de filas u objetos. ¿Pero cómo y por qué?
La respuesta a por qué es simple. No tenemos una cantidad infinita de datos. Cuantos más datos, mejores serán nuestros modelos ML, en principio. Pero cada proceso de recopilación de datos está asociado con un costo. Este costo puede ser en términos de dólares, esfuerzo humano, recursos computacionales y tiempo fuera de curso consumido en el proceso. Por lo tanto, es posible que necesitemos aumentar los datos existentes para aumentar el tamaño de los datos que suministramos a nuestros clasificadores ML y para compensar el costo involucrado en la recopilación de datos adicionales.
Hay muchas formas de aumentar los datos. En las imágenes, puede rotar la imagen original, cambiar las condiciones de iluminación, recortarla de manera diferente, de modo que para una imagen pueda generar diferentes submuestras. De esta forma puede reducir el sobreajuste de su clasificador [1]. Por otro lado, si está generando datos artificiales utilizando métodos de sobremuestreo como SMOTE [2], existe una buena posibilidad de que pueda introducir un sobreajuste. Por lo tanto, debe tener cuidado con su elección de aumento de datos.
- ¿Qué tipo de problemas funciona bien con la técnica de Deep Learning?
- ¿La IA podrá pensar más allá de nuestra comprensión del universo?
- ¿En qué tipos de datos / variables se pueden usar ANFIS, red neuronal, algoritmo genético y wavelet? ¿Cuáles son sus ventajas comparativas y deméritos / limitaciones?
- ¿Qué piensan los contadores del libro 'El futuro de las profesiones'?
- ¿Qué es la teoría del refuerzo?
Notas al pie
[1] La respuesta de Shehroz Khan a ¿Cómo exactamente las técnicas de aumento de datos como la duplicación y el recorte reducen el sobreajuste?
[2] http://www.jair.org/media/953/li…