La ciencia de datos implicaba, entre otras cosas, la minería de datos y el aprendizaje automático.
La minería de datos implica la extracción de datos útiles de un mar de datos (relevantes e irrelevantes). Los modelos estadísticos (que implican conceptos de probabilidad como Entropía y distribuciones condicionales) se utilizan para realizar dicha extracción.
Por ejemplo, existen modelos para resolver problemas específicos como clasificación, agrupamiento, predicción, etc. En la clasificación , desea clasificar un conjunto particular de observaciones en particular para un grupo específico. Una de las formas de hacerlo puede ser usar un modelo de regresión logística .
- ¿Qué se entiende por indexar datos en términos de Elasticsearch?
- ¿Es realmente necesario saber la codificación Java para Big Data? ¿Es posible aprender Big Data sin conocimiento de Java?
- ¿Qué es mejor para un conjunto de habilidades Java / J2EE: análisis de big data o middleware de WebSphere?
- ¿Cuál es la diferencia entre Python y las herramientas de minería de datos como Knime y Rapid Miner?
- ¿Cuáles son los requisitos previos necesarios para aprender la administración de big data?
Ese es un ejemplo. Hay muchos ejemplos de este tipo.
En general, la razón por la que las estadísticas y la probabilidad son tan importantes es que el campo de las estadísticas proporciona muchas herramientas para comprender los datos subyacentes, extraer inferencias de los datos, hacer predicciones, etc.
Las estadísticas le ayudan a transformar datos sin sentido en información útil. Entonces, diría que los conceptos de estadística y probabilidad no solo se UTILIZAN en Data Science, son la BASE completa de Data Science.
Para una mirada más detallada, consulte estos enlaces: Minería de datos y estadísticas: ¿Qué es la conexión?
Esta es la diferencia entre estadística y ciencia de datos.