Antes de aplicar cualquier algoritmo de ML en los datos, debemos comprender los datos que vamos a seguir. Sin la comprensión de los datos, habrá una posibilidad de falla del modelo ML.
La comprensión de los datos no es más que este Análisis Exploratorio de Datos (EDA). En su mayoría, este EDA se realiza utilizando métodos visuales.
Mi forma de análisis de datos exploratorios:
- Dada una red de aprendizaje profundo, ¿se puede entrenar para enseñar (por ejemplo, resolviendo la secuencia óptima de ejemplos o lo que sea) otra red? Si es así, ¿se puede resolver este problema (enseñanza) utilizando técnicas de aprendizaje profundo?
- Hay muchas críticas positivas para Pytorch. Actualmente uso Keras y TensorFlow. ¿Recomienda hacer un cambio o apegarse a Tensorflow y dominarlo?
- ¿Puede una red neuronal convolucional tener pesos negativos?
- ¿Por qué el código de paralelo de GPU es más complicado que el código de paralelo de CPU?
- Cómo guardar los pesos de los datos de entrenamiento de las pruebas MNIST en Tensorflow para uso futuro
Dividiré estos EDA en estos tipos.
- Análisis volumétrico
- Análisis de patrones de tiempo
- Análisis de texto
Análisis volumétrico
Esto se puede hacer usando todas las características de datos categóricos y numéricos. Aplicado para el análisis univariado y bivariado.
Análisis de patrones de tiempo
Esto se puede hacer utilizando todas las características de datos de formato de fecha y hora, como la fecha de creación, el mes creado, etc.
Análisis de texto
Esto se puede hacer usando todas las características de datos de texto. Análisis como wordcloud, análisis de N-gram, etc.
Para comprender mejor el proceso de ciencia de datos, revise la imagen a continuación.
Puedes hacer un pequeño curso para EDA en Python desde Bigdata University Exploratory Data Analysis en Python (Hands On) – Big Data University
Hoja de trucos de EDA en AV Cheat Sheet para análisis de datos exploratorios en Python