¿Cuál es el papel del análisis de datos exploratorios (EDA) en el aprendizaje automático?

Antes de aplicar cualquier algoritmo de ML en los datos, debemos comprender los datos que vamos a seguir. Sin la comprensión de los datos, habrá una posibilidad de falla del modelo ML.

La comprensión de los datos no es más que este Análisis Exploratorio de Datos (EDA). En su mayoría, este EDA se realiza utilizando métodos visuales.

Mi forma de análisis de datos exploratorios:

Dada una red de aprendizaje profundo, ¿se puede entrenar para enseñar (por ejemplo, resolviendo la secuencia óptima de ejemplos o lo que sea) otra red? Si es así, ¿se puede resolver este problema (enseñanza) utilizando técnicas de aprendizaje profundo?
Hay muchas críticas positivas para Pytorch. Actualmente uso Keras y TensorFlow. ¿Recomienda hacer un cambio o apegarse a Tensorflow y dominarlo?
¿Puede una red neuronal convolucional tener pesos negativos?
¿Por qué el código de paralelo de GPU es más complicado que el código de paralelo de CPU?
Cómo guardar los pesos de los datos de entrenamiento de las pruebas MNIST en Tensorflow para uso futuro

Dividiré estos EDA en estos tipos.

Análisis volumétrico
Análisis de patrones de tiempo
Análisis de texto

Análisis volumétrico

Esto se puede hacer usando todas las características de datos categóricos y numéricos. Aplicado para el análisis univariado y bivariado.

Análisis de patrones de tiempo

Esto se puede hacer utilizando todas las características de datos de formato de fecha y hora, como la fecha de creación, el mes creado, etc.

Análisis de texto

Esto se puede hacer usando todas las características de datos de texto. Análisis como wordcloud, análisis de N-gram, etc.

Para comprender mejor el proceso de ciencia de datos, revise la imagen a continuación.

Puedes hacer un pequeño curso para EDA en Python desde Bigdata University Exploratory Data Analysis en Python (Hands On) – Big Data University

Hoja de trucos de EDA en AV Cheat Sheet para análisis de datos exploratorios en Python

Análisis de datosAprendizaje automáticoCiencia dedatosMinería de datos

¿Cómo puedo explicar que las unidades tradicionales de red neuronal recurrente (RNN) sufren el problema del gradiente de fuga?

¿Cuál es el mejor instituto de capacitación para el aprendizaje automático en Hyderabad?

¿Cuál es su opinión sobre los rastros de elegibilidad para el aprendizaje de la diferencia temporal? ¿Es solo una asignación de crédito o un truco de aceleración?

Word2vec: ¿Cómo puede el método de entrenamiento jerárquico soft-max de CBOW garantizar su autoconsistencia?

Si Internet en su conjunto tuviera un tema musical, ¿cuál sería?

¿Por qué se supera un clasificador supervisado?

Hola, trabajo para la empresa de ciencia de datos e inteligencia artificial InData Labs.

Muy a menudo vemos que nuestros clientes realmente no entienden el valor del paso EDA. Además, no sienten la necesidad de gastar su tiempo y dinero en ello.

Trabajando en la industria desde hace bastante tiempo, podemos decir que es un error muy común y triste, que conduce a resultados insatisfactorios de todo el proyecto de aprendizaje automático.

Puede obtener más información sobre su importancia en nuestro blog: ¿Por qué comenzar un proyecto de ciencia de datos con análisis exploratorio de datos?

Bhuvanesh Waran

More Interesting

Cómo aprender a convertirse en un experto en aprendizaje profundo

¿Necesita aprender CSE (motor de ciencias de la computación) para aprender inteligencia artificial, o hay cursos de ingeniería separados para IA y aprendizaje automático?

¿El trabajo de finanzas corporativas será reemplazado por aprendizaje automático?

¿Cuál es el mejor enfoque para aprender sobre los algoritmos de redes neuronales de predicción del mercado de valores?

¿Qué hace una capa convolucional 1 × 1?

¿Es posible engañar a un automóvil autónomo para interpretar una señal de alto (como lo percibe el ojo humano) como una señal de velocidad?

¿Cuál es la diferencia entre embolsado y bootstrapping en ML / estadísticas?

Tengo un conjunto de datos con una combinación de datos cualitativos y cuantitativos, ¿cómo puedo inferir una relación o sensibilidad entre las columnas?

En el autoencoder variacional, ¿por qué solo tomamos muestras de variables latentes de un gaussiano estándar y aplicamos el decodificador para generar nuevos datos en las pruebas?

¿Cuál es la mejor manera de normalizar los datos implícitos para un sistema de recomendación de música mediante el filtrado colaborativo?