¿Cuál es la diferencia entre ciencia de datos y aprendizaje automático?

Aunque otras respuestas ya parecen haber hecho justicia a la pregunta, también podríamos considerar a DS como un dominio de aplicación de técnicas de ML. DS es más como una práctica y dado que es una palabra de moda relativamente nueva para describir la tarea de derivar ideas a partir de los datos, independientemente del volumen, la variedad, la velocidad y el espacio para la toma de decisiones accionables , apenas se usa en los contextos teóricos. Entonces, hasta hace poco, difícilmente encontraría programas académicos o de investigación en DS. Este no es el caso de ML. Si bien DS abarca todas las fases de análisis de datos de extremo a extremo (por ejemplo, preprocesamiento, análisis, validación, interpretación y despliegue), ML, por otro lado, pone más énfasis en las técnicas utilizadas en las fases de análisis, validación e interpretación.

En la investigación académica, los investigadores de ML, en su mayoría con experiencia en ciencias de la computación, matemáticas, estadísticas o physiscs , desarrollan nuevos algoritmos de agrupamiento, regresión, selección de modelos y validación, por ejemplo, o mejoran las técnicas existentes, como el diseño de estrategias novedosas para determinar estructuras óptimas de red profunda. . Los investigadores de DS, por otro lado, pueden tener diversos antecedentes técnicos y a menudo se preocupan por la aplicación de técnicas estadísticas y ML para abordar problemas en diversos dominios.

En la industria, los dominios de DS y ML se superponen delicadamente con límites bastante confusos. Los primeros usuarios tendrán roles de trabajo como Ingeniero de Aprendizaje Automático o Científico para referirse a una gran cantidad de responsabilidades que requieren una competencia técnica variable. Recientemente, hemos visto la separación de inquietudes o responsabilidades que llevan a roles más específicos, por ejemplo, ingeniero de datos, sistemas y herramientas de ingeniería para mover / almacenar datos y la implementación de modelos predictivos de los científicos de datos, científicos de datos , identificando necesidades y brechas de datos organizacionales, construyendo predicciones modelos basados ​​en objetivos de organización de alto nivel y análisis de datos de productos utilizando técnicas de ML, llevan a cabo experimentos, por ejemplo, pruebas A / B, convirtiendo ideas en recomendaciones accionables e informes para gerentes de alto nivel.

A continuación, relaciono una figura que considera las complejidades de DS, ML y otros campos aliados y cómo encaja en la resolución de problemas en muchas organizaciones.

Aquí hay otro hilo de reddit sobre el tema:

Ingeniero de aprendizaje automático vs Científico de datos • r / Aprendizaje automático

El aprendizaje automático es la ciencia de crear algoritmos y programas que aprenden por sí mismos. Después de diseñar, no necesitan un humano para mejorar. Algunas de las aplicaciones comunes del aprendizaje automático incluyen: búsqueda en la web, filtros de spam, sistemas de recomendación, colocación de anuncios, calificación crediticia, detección de fraude, comercio de acciones y visión por computadora. Una manera fácil de entender el aprendizaje automático es que, es humanamente imposible crear modelos para cada búsqueda o spam posible, por lo que hacemos que la máquina sea lo suficientemente inteligente como para aprender por sí misma.

La ciencia de datos es mucho más que el aprendizaje automático. Los datos, en la ciencia de los datos, pueden provenir o no de una máquina o un proceso mecánico porque los datos de la encuesta podrían recopilarse manualmente y algunos ensayos clínicos involucran un tipo específico de datos pequeños. Pero la principal diferencia es que la ciencia de datos no solo cubre aspectos algorítmicos o estadísticos, sino que también cubre todos los campos del procesamiento de datos. En particular, la ciencia de datos también cubre

integración de datos

arquitectura distribuida

automatizar el aprendizaje automático

Visualización de datos

tableros y BI

ingeniería de datos

despliegue en modo de producción

decisiones automatizadas basadas en datos

Si desea servicios de aprendizaje automático y ciencia de datos, deje que USM Business Systems lo ayude, USM es una de las principales empresas de desarrollo de aprendizaje automático y ciencia de datos en EE. UU.

La ciencia de datos se trata de tratar datos para obtener valor de los datos. Podría ser cualquier tipo de datos desde el mercado de valores hasta las redes sociales. El aprendizaje automático es una parte del proceso. Dado que el trabajo manual en grandes conjuntos de datos (también llamados grandes datos) es imposible de realizar mediante técnicas tradicionales, por ejemplo, escribir programas para manejar datos estructurados. El aprendizaje automático es una herramienta que puede ayudar a automatizar el proceso de manejo de datos. Es un campo muy vasto e incluye algoritmos para clasificación, visualización, reducción de dimensionalidad, etc.

La ciencia de datos también es una palabra de moda utilizada para tareas relacionadas con datos. Las tareas de aprendizaje automático, generalmente supervisadas o sin supervisión, ayudan a encontrar patrones en los datos. Por ejemplo, el análisis de sentimientos es un ejemplo de tal tarea que puede realizarse mediante aprendizaje automático supervisado, aprendizaje automático no supervisado u otros enfoques, como el procesamiento de lenguaje natural o basado en léxico (PNL). Si se supervisa, toma algunos datos de entrenamiento y aprende de ellos y luego se usa para predecir sentimientos de oraciones con polaridad desconocida.

La ciencia de datos es un gran dominio. Si tratamos de ponerlo en marcha, tendría adquisición de datos, almacenamiento de datos, procesamiento previo de datos o limpieza de datos, patrones de aprendizaje en los datos (a través del aprendizaje automático), uso del aprendizaje para las predicciones. Esta es una forma de entender cómo el aprendizaje automático se adapta a la ciencia de datos.

El aprendizaje automático es una parte de las actividades de un científico de datos.

La ciencia de datos se trata de hacer uso de los datos existentes para comprender mejor un comportamiento, un fenómeno o para predecir perspectivas futuras.

Como puede ver en la imagen, la ciencia de datos requiere un conjunto variado de habilidades que colectivamente contribuyen al objetivo final: hacer uso de los datos. El aprendizaje automático es la parte que requiere conocimientos matemáticos / estadísticos y las habilidades para codificar esos algoritmos para construir modelos de los datos existentes.

El aprendizaje automático contribuye a la ciencia de datos en gran medida en todos los problemas de predicción y clasificación.

Foto cortesía: Forbes

Crédito de la imagen: Inteligencia artificial: otro sitio de la red

En primer lugar, el aprendizaje automático es parte de la ciencia de datos. La palabra “aprendizaje” en el aprendizaje automático significa que los algoritmos dependen de algunos datos, utilizados como un conjunto de entrenamiento, para ajustar algunos parámetros del modelo o algoritmo. Esto abarca muchas técnicas, como la regresión, la ingenua Bayes o la agrupación supervisada . Pero no todas las técnicas encajan en esta categoría. Por ejemplo, la agrupación no supervisada , una técnica estadística y de ciencia de datos, tiene como objetivo detectar agrupaciones y estructuras de agrupación sin ningún conocimiento o conjunto de capacitación a priori para ayudar al algoritmo de clasificación. Se necesita un ser humano para etiquetar los grupos encontrados.

Sin embargo, la ciencia de datos es mucho más que aprendizaje automático. Los datos, en la ciencia de los datos, pueden o no provenir de una máquina o un proceso mecánico (los datos de la encuesta se pueden recopilar manualmente, los ensayos clínicos involucran un tipo específico de datos pequeños) y puede que no tenga nada que ver con el aprendizaje, como acabamos de mostrar arriba . Pero la principal diferencia es el hecho de que la ciencia de datos cubre todo el espectro del procesamiento de datos, no solo los aspectos algorítmicos o estadísticos. En particular, la ciencia de datos también cubre

  • integración de datos
  • arquitectura distribuida
  • automatizar el aprendizaje automático
  • Visualización de datos
  • tableros y BI
  • ingeniería de datos
  • despliegue en modo de producción
  • decisiones automatizadas basadas en datos

Comuníquese con nosotros para obtener más información sobre inteligencia artificial (IA), aprendizaje automático (ML), análisis relacionados en: Blog, estudios de casos, documentos de investigación

Data Science es más bien un término general. Es la ciencia del análisis de datos, la minería de datos, el aprendizaje automático y mucho más, pero sigamos con esta información por el simple hecho de la pregunta.

El aprendizaje automático es un campo de la ciencia de datos que estudia, desarrolla e implementa algoritmos y programas capaces de autoaprendizaje. Estos algoritmos una vez diseñados pueden seguir aprendiendo nuevos conceptos e ideas sin intervención humana. Mejoran con el tiempo. Estos algoritmos utilizan los principios de la minería de datos (nuevamente, es un campo de la ciencia de datos) para aprender más y evolucionar. Simplemente están automatizados para extraer datos basados ​​en patrones, tendencias y muchos otros factores involucrados.

Ahora que tenemos claras las diferencias, se puede decir que el aprendizaje automático es parte de la ciencia de datos. Es más que una técnica. Por lo tanto, es mejor decir que el aprendizaje automático se realiza utilizando ciencia de datos en lugar de decirlo al revés.

PD: esta analogía debería ayudar: el análisis de datos, la minería de datos y el aprendizaje automático son las estrellas, pero Data Science es la madrina que organiza todo el espectáculo.

Para mí, el análisis de datos representa algo así como …

  1. ¿Qué es un KPI perspicaz para salir de nuestros datos? Si somos un minorista de eComm, por ejemplo, ese podría ser el porcentaje de visitas a páginas que teníamos en stock. o
  2. ¿Qué porcentaje de pedidos se envían dentro de 2 días?

El aprendizaje automático es un juego completamente diferente. Puede volver a establecer Q1 y Q2, por ejemplo:

  1. ¿Podemos construir un algoritmo predictivo que prediga qué páginas estarán agotadas?
  2. ¿Podemos construir un optimizador que nos ayude a despachar pedidos más rápido?

En un nivel más profundo, el análisis de datos generalmente está utilizando la máquina para automatizar algunas tareas bastante triviales. Con el aprendizaje automático, está permitiendo que la máquina automatice gran parte del proceso de aprendizaje, donde normalmente pasaría ese conocimiento como analista de datos.

¿Eso ayuda a aclarar algo?

La ciencia de datos es un trabajo (o campo de investigación). El aprendizaje automático es una de las tareas que puede realizar como científico de datos si determina que ese es el enfoque correcto.

More Interesting

¿Puede una unidad USB transmitir y recibir información al mismo tiempo?

Cómo ver si se está bloqueando la computadora

¿Qué debo elegir entre CS en KIIT y CCE del campus principal de Manipal Instittute of Technology?

¿Podría alguien en el futuro hacer un chip de inteligencia artificial de computadora que mejore el atractivo?

¿Cuál es una explicación simple para el filtrado anisotrópico?

¿Cuál es un escenario de la vida real en el que [matemática] e ^ x [/ matemática] podría usarse?

Si hiciéramos un grupo de Navy Seals junto con diferentes tipos de IA de Red vs. Blue, ¿podrían ser derrotados?

¿Cómo ayuda la inteligencia artificial? ¿Cuáles son algunas ventajas y desventajas?

¿El uso de 'sombrero blanco' en la seguridad informática muestra un sesgo racial frente al término 'sombrero negro'?

¿El USB Type-C tiene un nombre estandarizado?

¿Hacia dónde se dirigirá la investigación de aprendizaje automático en los próximos 5 años? ¿Cuáles serán las áreas más emocionantes y prometedoras?

¿Cuáles son las diferencias entre las computadoras de servidor, las computadoras domésticas y los teléfonos inteligentes?

¿Cómo se puede aplicar el aprendizaje automático al diseño de circuitos analógicos?

¿Cuál es más confiable? ¿HFS de Apple o EXT4 de Linux? ¿Cuáles son las fortalezas y debilidades de cada sistema de archivos?

¿Cuáles son las historias de fracaso más grandes con respecto a las colocaciones en la universidad que has encontrado?