¿Qué es la ciencia de datos y el aprendizaje automático? ¿Cuáles son las similitudes y diferencias entre ellos?

El aprendizaje automático y las estadísticas son parte de la ciencia de datos. La palabra aprendizaje en aprendizaje automático significa que los algoritmos dependen de algunos datos, utilizados como un conjunto de entrenamiento, para ajustar algunos parámetros del modelo o algoritmo. Esto abarca muchas técnicas, como la regresión, la ingenua Bayes o la agrupación supervisada. Pero no todas las técnicas encajan en esta categoría. Por ejemplo, la agrupación no supervisada, una técnica estadística y de ciencia de datos, tiene como objetivo detectar agrupaciones y estructuras de agrupación sin ningún conocimiento o conjunto de capacitación a priori para ayudar al algoritmo de clasificación. Se necesita un ser humano para etiquetar los grupos encontrados. Algunas técnicas son híbridas, como la clasificación semi-supervisada. Algunas técnicas de detección de patrones o de estimación de densidad encajan en esta categoría.

Sin embargo, la ciencia de datos es mucho más que aprendizaje automático. Los datos, en la ciencia de los datos, pueden provenir o no de una máquina o un proceso mecánico (los datos de la encuesta pueden recopilarse manualmente, los ensayos clínicos involucran un tipo específico de datos pequeños) y tal vez no tenga nada que ver con el aprendizaje, como acabo de comentar. Pero la principal diferencia es el hecho de que la ciencia de datos cubre todo el espectro del procesamiento de datos, no solo los aspectos algorítmicos o estadísticos. En particular, la ciencia de datos también cubre

integración de datos

arquitectura distribuida

automatizar el aprendizaje automático

Visualización de datos

tableros y BI

ingeniería de datos

despliegue en modo de producción

decisiones automatizadas basadas en datos …

Si ve la imagen de arriba, obtendrá que si usamos experiencia sustancial como en minería de datos, modelado de datos, etc. con aprendizaje automático, se convertirá en ciencia de datos.

En la ciencia de datos para el análisis de datos usamos solo algoritmos de aprendizaje automático. Ambos son cosas diferentes, pero puedes aprender a reunirlos. 🙂