¿Cuál es el papel del análisis de datos exploratorios (EDA) en el aprendizaje automático?

Antes de aplicar cualquier algoritmo de ML en los datos, debemos comprender los datos que vamos a seguir. Sin la comprensión de los datos, habrá una posibilidad de falla del modelo ML.

La comprensión de los datos no es más que este Análisis Exploratorio de Datos (EDA). En su mayoría, este EDA se realiza utilizando métodos visuales.

Mi forma de análisis de datos exploratorios:

Dividiré estos EDA en estos tipos.

  1. Análisis volumétrico
  2. Análisis de patrones de tiempo
  3. Análisis de texto

Análisis volumétrico

Esto se puede hacer usando todas las características de datos categóricos y numéricos. Aplicado para el análisis univariado y bivariado.

Análisis de patrones de tiempo

Esto se puede hacer utilizando todas las características de datos de formato de fecha y hora, como la fecha de creación, el mes creado, etc.

Análisis de texto

Esto se puede hacer usando todas las características de datos de texto. Análisis como wordcloud, análisis de N-gram, etc.

Para comprender mejor el proceso de ciencia de datos, revise la imagen a continuación.

Puedes hacer un pequeño curso para EDA en Python desde Bigdata University Exploratory Data Analysis en Python (Hands On) – Big Data University

Hoja de trucos de EDA en AV Cheat Sheet para análisis de datos exploratorios en Python

Hola, trabajo para la empresa de ciencia de datos e inteligencia artificial InData Labs.

Muy a menudo vemos que nuestros clientes realmente no entienden el valor del paso EDA. Además, no sienten la necesidad de gastar su tiempo y dinero en ello.

Trabajando en la industria desde hace bastante tiempo, podemos decir que es un error muy común y triste, que conduce a resultados insatisfactorios de todo el proyecto de aprendizaje automático.

Puede obtener más información sobre su importancia en nuestro blog: ¿Por qué comenzar un proyecto de ciencia de datos con análisis exploratorio de datos?

More Interesting

Cómo aprender a convertirse en un experto en aprendizaje profundo

¿Necesita aprender CSE (motor de ciencias de la computación) para aprender inteligencia artificial, o hay cursos de ingeniería separados para IA y aprendizaje automático?

¿El trabajo de finanzas corporativas será reemplazado por aprendizaje automático?

¿Cuál es el mejor enfoque para aprender sobre los algoritmos de redes neuronales de predicción del mercado de valores?

¿Qué hace una capa convolucional 1 × 1?

¿Es posible engañar a un automóvil autónomo para interpretar una señal de alto (como lo percibe el ojo humano) como una señal de velocidad?

¿Cuál es la diferencia entre embolsado y bootstrapping en ML / estadísticas?

Tengo un conjunto de datos con una combinación de datos cualitativos y cuantitativos, ¿cómo puedo inferir una relación o sensibilidad entre las columnas?

En el autoencoder variacional, ¿por qué solo tomamos muestras de variables latentes de un gaussiano estándar y aplicamos el decodificador para generar nuevos datos en las pruebas?

¿Cuál es la mejor manera de normalizar los datos implícitos para un sistema de recomendación de música mediante el filtrado colaborativo?

¿Cuáles son algunas implementaciones geniales de aprendizaje automático?

¿Cuáles son los mejores software de aprendizaje automático de código abierto para reconocimiento facial?

Cómo calcular la huella de memoria de un modelo particular de aprendizaje profundo

¿Cómo funcionan los vectores de párrafo frente a codificadores automáticos variacionales?

¿Cuáles son algunos proyectos en Big Data y machine learning?