¿Cuál es la diferencia entre ciencia de datos y estadística?

La ciencia de datos abarca más, como se explica en la respuesta de Michael Hochster a ¿Qué es la ciencia de datos? Usaré la nomenclatura de esa respuesta en esta.

La ciencia de datos de tipo B usa algunas estadísticas, pero también implica habilidades de codificación significativas que tradicionalmente no se consideran parte de las estadísticas (aunque, por supuesto, es necesaria cierta cantidad de codificación para ser un estadístico en el mundo moderno).

Incluso para los científicos de datos de Tipo A, las estadísticas son solo una herramienta en la caja. Los científicos de datos también deben poder manipular y procesar conjuntos de datos muy grandes, crear visualizaciones convincentes, automatizar tareas, proponer nuevos análisis, explicar sus análisis a una variedad de audiencias, colaborar bien con ingenieros y personas de negocios / productos, y hacer recomendaciones basadas en los datos.

Muchos estadísticos pueden hacer todas estas cosas y funcionar como científicos de datos de Tipo A, pero el plan de estudios estándar se enfoca más estrechamente en la inferencia estadística, ciertos tipos de modelos y, en menor medida, el muestreo y el diseño.

Un plan de acción para la ciencia de datos, hace una década, habla sobre lo que es esencialmente el documento original sobre ciencia de datos, que establece cómo la ciencia de datos debe diferir de las estadísticas tradicionales.

Las estadísticas tradicionales definitivamente forman un elemento crítico de la ciencia de datos. Creo que la diferencia realmente está en el alcance. La ‘ciencia de datos’ es realmente una palabra de moda que abarca la búsqueda y recopilación de datos, minería de datos y preprocesamiento, EDA, estadísticas, aprendizaje automático, procesamiento de lenguaje natural y visualización de datos. En resumen, implica todo lo que puede hacer para obtener conocimiento de los datos.

Hay un buen artículo sobre el tema en:

http://radar.oreilly.com/2010/06…