¿Qué significa el término aumento de datos en el contexto del aprendizaje automático?

El aumento de datos significa aumentar el número de puntos de datos. En términos de imágenes, puede significar que aumenta el número de imágenes en el conjunto de datos. En términos de datos tradicionales de formato de fila / columna, significa aumentar el número de filas u objetos. ¿Pero cómo y por qué?

La respuesta a por qué es simple. No tenemos una cantidad infinita de datos. Cuantos más datos, mejores serán nuestros modelos ML, en principio. Pero cada proceso de recopilación de datos está asociado con un costo. Este costo puede ser en términos de dólares, esfuerzo humano, recursos computacionales y tiempo fuera de curso consumido en el proceso. Por lo tanto, es posible que necesitemos aumentar los datos existentes para aumentar el tamaño de los datos que suministramos a nuestros clasificadores ML y para compensar el costo involucrado en la recopilación de datos adicionales.

Hay muchas formas de aumentar los datos. En las imágenes, puede rotar la imagen original, cambiar las condiciones de iluminación, recortarla de manera diferente, de modo que para una imagen pueda generar diferentes submuestras. De esta forma puede reducir el sobreajuste de su clasificador [1]. Por otro lado, si está generando datos artificiales utilizando métodos de sobremuestreo como SMOTE [2], existe una buena posibilidad de que pueda introducir un sobreajuste. Por lo tanto, debe tener cuidado con su elección de aumento de datos.

Notas al pie

[1] La respuesta de Shehroz Khan a ¿Cómo exactamente las técnicas de aumento de datos como la duplicación y el recorte reducen el sobreajuste?

[2] http://www.jair.org/media/953/li…

Aprendizaje automáticoCiencia de datosInteligencia Artificial

Related Content

¿Qué cosas debo saber antes de realizar una disertación en aprendizaje automático?

¿Cuál es la diferencia entre inteligencia artificial y algoritmos?

¿La teoría de la medida es relevante para el aprendizaje automático?

¿Cómo hace Google "mejores conjeturas" en los resultados de búsqueda?

¿Por qué el algoritmo EM (maximización de expectativas) necesariamente converge? ¿Cuáles son algunas de sus aplicaciones comunes?

¿Por qué obtengo un error absurdamente grande cuando uso redes neuronales con muchas capas?

Tengo un conjunto de artículos de noticias, ¿cómo puedo determinar cuáles de ellos están hablando del mismo incidente utilizando técnicas de aprendizaje automático / aprendizaje profundo?

El problema que enfrentan la mayoría de los profesionales de Machine Learning (ML) es que a menudo hay muy pocos datos de alta calidad. Esto es especialmente cierto si desea reservar algo para capacitación, pruebas y validación.

Si te encuentras en la desafortunada posición de un conjunto de entrenamiento muy desequilibrado, las cosas pueden incluso empeorar. Por ejemplo, si está tratando de detectar una enfermedad rara (0.1%), la técnica de ML que elija podría terminar “pensando”, ¡el mejor enfoque es predecir que todos están saludables con una precisión del 99.9%!

Desafortunadamente, la adquisición de más datos es casi siempre lento y costoso. Esto lleva a metodologías para superar esto, que se incluye en la rúbrica “Aumento de datos”. Se podría pensar que esto es “trampa”. Bueno, si no funciona, entonces es una trampa fallida, pero si funciona, ¡entonces es una técnica!

Ver:

Lo que necesita saber sobre el aumento de datos para el aprendizaje automático

Arun Gandhi

El aumento de datos se usa a veces para hacer que su modelo sea más robusto y se ajuste demasiado. En tu caso, imágenes, básicamente tomas tu conjunto de entrenamiento y lo transformas (rotación, volteo, variación de color, ruido, …). Es una manera simple de construir un conjunto de datos más grande ya que ahora tiene las etiquetas de sus nuevas imágenes transformadas.

Y como dijo Clem, el sobremuestreo se puede usar como una estrategia de aumento de datos, en este caso tiene un conjunto de datos desequilibrado y necesita agregar ejemplos de una clase para equilibrar sus datos.

Arun Gandhi

Puedes leer esto Cómo usar el aprendizaje profundo cuando tienes datos limitados – Parte 2 | Aumento de datos

Esto lo cubre para imágenes bastante bien, supongo

Clem Wang

More Interesting

¿Es apropiado utilizar el aprendizaje automático para encontrar la distribución de probabilidad aproximada de sus datos?

¿Los chatbots se arruinarán y perderán tracción?

¿Por qué el 'Xiaoice' de Microsoft tuvo mucho más éxito que el 'Tay.ai'?

¿Podríamos entrenar una red neuronal arbitrariamente grande en un problema arbitrariamente difícil si tuviéramos los recursos computacionales (y los datos)?

¿Qué lenguaje usaría una IA para programarse a sí misma o su engendro?

¿Son los chatbots las nuevas aplicaciones?

Si se crea una IA fuerte, ¿por qué debería servirnos?

¿Es posible convertir un documento electrónico (en lenguaje natural) en una representación comprensible de la máquina?

¿Cuál es la diferencia entre aprendizaje automático, red neuronal y cómo se relacionan con el aprendizaje profundo?

¿Qué le preguntarías a un mentiroso que imita un comportamiento honesto para juzgar si es un mentiroso?

¿Cuál es la diferencia entre inteligencia artificial, aprendizaje automático, minería de datos e inteligencia de negocios? ¿Cómo están relacionados?

¿Cuál es la clave que el aprendizaje profundo contribuyó al aprendizaje de refuerzo (RL) que antes no era posible sin redes neuronales (ANN)?

¿Alguna experiencia con el robot para barrer y trapear pisos? ¿Qué tan efectivos y resistentes son?

¿Cuál es la posición de las religiones mundiales sobre la inteligencia artificial?

¿Por qué debería estar entusiasmado con los bots y chatbots y cuáles son algunos casos de uso fáciles de entender?

Web Analytics