¿El análisis exploratorio de datos no es necesario para el aprendizaje profundo?

Gracias por el A2A! Es una buena práctica incluir EDA en su flujo de trabajo cuando trabaja hacia el aprendizaje profundo, ya que le ayuda a construir mejores modelos porque comprende mejor sus datos y evalúa y / o mejora la calidad de los datos .

El análisis de datos exploratorios (EDA) se utiliza, por un lado, para responder preguntas, evaluar supuestos comerciales y generar hipótesis para un análisis posterior. Por otro lado, también puede usarlo para preparar los datos para el modelado.

Los pasos básicos en el proceso EDA (pueden) incluyen una descripción básica de sus datos, consultar / indexar sus datos, ingeniería de características, explorar / identificar / resolver los desafíos que los datos le plantean (valores perdidos, valores atípicos, …) y encontrar patrones en tu información. Puede encontrar un tutorial gratuito de Python sobre EDA con Pandas aquí: Tutorial de análisis de datos exploratorios de Python.

Además, puede profundizar en un aspecto específico de EDA, que es el perfil de datos . Usas esto para evaluar la calidad de los datos. El perfil de datos tiene que ver con resumiendo su conjunto de datos a través de estadísticas descriptivas. Puede encontrar un tutorial sobre el perfil de datos con Pandas aquí: Análisis de datos exploratorios de cervezas artesanales: perfil de datos

Vea un ejemplo de cómo EDA puede ayudarlo a comprender su análisis de datos y construir modelos de aprendizaje profundo: Tutorial de Keras: Aprendizaje profundo en Python.

Para cualquier tipo de procesamiento de datos, se recomienda que el primer paso que se tome sea analizar los datos para eliminar valores atípicos, detectar datos incompletos, etc.

Supongo que por análisis exploratorio de datos quieres decir eso, haciendo un análisis previo y eventualmente filtrando y normalizando los datos.

El aprendizaje profundo es (hablar en la práctica) tratando de encontrar patrones en los datos que son difíciles de obtener “visualmente” porque hay muchos datos y / o la estructura de los datos es compleja, mediante el uso de procesadores potentes (GPU, al menos) y muchos tiempo de cálculo (horas, días, semanas …). Si arroja datos incorrectos a la “máquina”, terminará con resultados no deseados y también gastará recursos computacionales sin ningún beneficio …

El análisis exploratorio de datos es para la comprensión humana de los datos por su valor nominal. El aprendizaje profundo o el aprendizaje automático se trata de abstraer el comportamiento de los datos en un modelo matemático. Para responder a su pregunta, no, no la necesita, ya que ambos están destinados a diferentes propósitos.

El aprendizaje profundo es más como un paso en una línea de producción. El análisis de datos exploratorios es más parecido a un paso en la misma línea de producción. Es parte de la preparación de la entrada para el paso de aprendizaje profundo.

Es esencial para cualquier proyecto de ciencia de datos, ya sea aprendizaje profundo, segmentación o un modelo típico de aprendizaje automático.