¿Cuáles son algunos buenos métodos para el procesamiento previo de datos en el aprendizaje automático?

El aprendizaje profundo y el aprendizaje automático son cada vez más importantes en el ERP (Planificación de recursos empresariales) de hoy. Durante el proceso de construcción del modelo analítico utilizando Deep Learning o Machine Learning, el conjunto de datos se recopila de varias fuentes, como un archivo, base de datos, sensores y mucho más.

Pero, los datos recopilados no se pueden usar directamente para realizar el proceso de análisis. Por lo tanto, para resolver este problema, se realiza la preparación de datos . Incluye dos técnicas que se enumeran a continuación:

  • Preprocesamiento de datos
  • Lucha de datos

¿Qué es el preprocesamiento de datos?

El preprocesamiento de datos es una técnica que se utiliza para convertir los datos sin procesar en un conjunto de datos limpio. En otras palabras, cada vez que los datos se recopilan de diferentes fuentes, se recopilan en formato sin procesar que no es factible para el análisis.

Por lo tanto, se ejecutan ciertos pasos para convertir los datos en un pequeño conjunto de datos limpios. Esta técnica se realiza antes de la ejecución del análisis iterativo . El conjunto de pasos se conoce como preprocesamiento de datos. Incluye limpieza de datos, integración de datos, transformación de datos y reducción de datos.

Necesidad de preprocesamiento de datos

Para lograr mejores resultados del modelo aplicado en los proyectos de Aprendizaje automático y Aprendizaje profundo, el formato de los datos debe ser el correcto. Algunos modelos específicos de Aprendizaje automático y Aprendizaje profundo necesitan información en un formato específico, por ejemplo, el algoritmo de Bosque aleatorio no admite valores nulos, por lo tanto, para ejecutar los valores nulos del algoritmo de bosque aleatorio debe administrarse desde el conjunto de datos sin procesar original.

Otro aspecto es que el conjunto de datos debe formatearse de tal manera que se ejecuten más de un algoritmo de Aprendizaje automático y Aprendizaje profundo en un conjunto de datos, y se elige el mejor de ellos.

¿Por qué se usa el preprocesamiento de datos?

El preprocesamiento de datos es necesario debido a la presencia de datos del mundo real sin formato. La mayoría de los datos del mundo real se componen de:

  • Datos inexactos ( datos faltantes): existen muchos motivos para los datos faltantes, como que los datos no se recopilan continuamente, un error en la entrada de datos, problemas técnicos con la biometría y mucho más.
  • La presencia de datos ruidosos (datos erróneos y valores atípicos): las razones de la existencia de datos ruidosos podrían ser un problema tecnológico del dispositivo que recopila datos, un error humano durante la entrada de datos y mucho más.
  • Datos inconsistentes: el La presencia de inconsistencias se debe a razones tales como la existencia de duplicación en los datos, entrada de datos humanos, que contienen errores en códigos o nombres, es decir, violación de restricciones de datos y mucho más.

¿Cómo se realiza el preprocesamiento de datos ?

  • Ignorar el registro faltante: es el método más simple y eficiente para manejar los datos faltantes. Pero, este método no debe realizarse en el momento en que el número de valores faltantes es inmenso o cuando el patrón de datos está relacionado con la raíz primaria no reconocida de la causa del problema de la declaración.
  • Rellenar los valores faltantes manualmente: este es uno de los métodos mejor elegidos. Pero hay una limitación: cuando hay un gran conjunto de datos y los valores faltantes son significativos, este enfoque no es eficiente, ya que se convierte en una tarea que requiere mucho tiempo.
  • Relleno utilizando valores calculados: los valores faltantes también se pueden ocupar calculando la media, la moda o la mediana de los valores observados. Otro método podría ser los valores predictivos que se calculan utilizando cualquier algoritmo de Aprendizaje automático o Aprendizaje profundo. Pero un inconveniente de este enfoque es que puede generar sesgo dentro de los datos, ya que los valores calculados no son precisos con respecto a los valores observados.
  • Método de agrupamiento: en este enfoque, la clasificación de datos se realiza con respecto a los valores del vecindario. Este método también se conoce como suavizado local.
  • Método de agrupación: en el enfoque, los valores atípicos pueden detectarse agrupando datos similares en el mismo grupo, es decir, en el mismo grupo.
  • Aprendizaje automático: se puede ejecutar un algoritmo de aprendizaje automático para suavizar los datos. Por ejemplo, el algoritmo de regresión se puede usar para suavizar datos usando una función lineal especificada.
  • Eliminación manual: el ser humano puede eliminar manualmente los datos ruidosos, pero es un proceso que lleva mucho tiempo, por lo que la mayoría de este método no tiene prioridad.

Lee mas…

Tabule obs, # missing, mean, median, min, max para cada variable numérica y transforme (por ejemplo, set missing) aquellos con valores anormales.

Para las variables de cadena, investigue la longitud, de modo que si la importa, la almacena de manera eficiente.

Busca duplicados.

Aquí hay una charla técnica sobre cómo Spotify procesa sus datos: Procesamiento de datos por lotes en Spotify con Luigi por Erik Bernhardsson