¿El aprendizaje automático es un subconjunto de la ciencia de datos?

Gracias por el A2A.

Hay una gran diferencia entre los dos, aunque demasiado de lo que lees en línea hace que suenen igual. Como otros han señalado, el aprendizaje automático es una disciplina que involucra estadísticas, ciencias de la computación y matemáticas.

La ciencia de datos es un campo amplio que abarca mucho más. Un científico de datos debe trabajar con (generalmente) un experto en la materia que no sabe mucho, si es que sabe algo, sobre ciencia de datos. Por lo tanto, tendrá que traducir el problema que quieren resolver en uno de ciencia de datos. Tendrá que codificar su conocimiento en su formulación de alguna manera. Y es posible que tenga que hacer todo esto con cierto grado de inteligencia, ya que muchas pymes insistirán en que saben cuál es el problema, incluso si se dan cuenta de que hay algo más que debe abordarse / considerarse para obtener el resultado que desean.

Un científico de datos pasará gran parte de su tiempo remodelando y limpiando los datos, lo que no cae dentro del ámbito del aprendizaje automático. Y a menudo también se quedará atascado con la obtención de datos.

La ciencia de datos también implica bastante perspicacia comercial. Debe saber cuándo detenerse, cuándo una respuesta es “suficientemente buena” y cuándo es necesario repensar el proyecto desde el principio. Debe pensar continuamente en el objetivo comercial, no en la “respuesta” al problema del aprendizaje automático.

La ciencia de datos incluye algunas áreas de las matemáticas que no entran en el ámbito del aprendizaje automático. La analítica prescriptiva requiere optimización, modelación causal y / o teoría de la decisión para llegar a un curso de acción recomendado.

Y luego, cuando la parte técnica del problema está completa, todavía queda la pequeña cuestión de explicar sus resultados de una manera clara y convincente para que los tomadores de decisiones tomen el curso de acción recomendado. Como mínimo, eso requiere habilidad con la visualización de datos, que está muy fuera del alcance del aprendizaje automático. Pero en un entorno empresarial, puede terminar en la posición en la que tiene que decirle a algún ejecutivo con décadas de experiencia que su intuición es incorrecta. No hace falta decir que tendrá que hacer esto de una manera políticamente sensible o lo rechazarán como teórico. Si usted es serio acerca de aportar valor a su cliente, necesita saber algo acerca de la psicología, la persuasión y simplemente las habilidades de las personas.

No se confunda con todos los MOOC que sugieren que todo lo que necesita hacer es tener experiencia con algunos algoritmos de aprendizaje automático y de repente es un científico de datos. La ciencia de datos requiere muchas habilidades, el aprendizaje automático es solo una de ellas.

Sí, es cierto que el aprendizaje automático es un subconjunto de la ciencia de datos. Data Science es un término amplio que comprende estadísticas, programación, visualización de datos, big data, aprendizaje automático y mucho más.

El término aprendizaje automático se explica por sí mismo. Las máquinas aprenden a realizar tareas que no están programadas específicamente para hacer. Muchas técnicas se ponen en práctica, como la agrupación supervisada, la regresión, las ingenuas Bayes, etc.

El aprendizaje automático es solo una parte de la ciencia de datos. La ciencia de datos es un gran paraguas que cubre todos y cada uno de los aspectos del procesamiento de datos y no solo los aspectos estadísticos o algorítmicos. Por mencionar, la ciencia de datos incluye

  • Visualización de datos
  • Integración de datos
  • Dashboards y BI
  • Arquitectura distribuida
  • Decisiones automatizadas basadas en datos
  • Automatizando el aprendizaje automático
  • Implementación en modo de producción
  • Ingeniería de datos

El aprendizaje automático ayuda a la ciencia de datos al proporcionar análisis de datos, preparación de datos e incluso la toma de decisiones como pruebas en tiempo real, aprendizaje en línea. Los clubes de ciencia de datos combinan algoritmos derivados del aprendizaje automático para proporcionar una solución. La ciencia de datos lleva a cabo esta actividad tomando muchas ideas de matemáticas básicas, estadísticas y experiencia en el dominio.

Para ser precisos, la ciencia de datos es el proceso de proporcionar una solución a un problema donde el aprendizaje automático juega un papel importante en esa solución.

Para comprender qué hacen exactamente un científico de datos y un científico de aprendizaje automático, echemos un vistazo a las habilidades de ambos.

Científico de datos

  • Realizar investigaciones no dirigidas y formular preguntas abiertas a la industria
  • Extrae grandes volúmenes de datos de múltiples fuentes internas y externas.
  • Emplee sofisticados programas de análisis, aprendizaje automático y métodos estadísticos para preparar datos para su uso en modelos predictivos y prescriptivos.
  • Limpie y pode a fondo los datos para descartar información irrelevante
  • Explore y examine datos desde una variedad de ángulos para determinar las debilidades, tendencias y / u oportunidades ocultas.
  • Forme soluciones basadas en datos para los desafíos más apremiantes
  • Inventar nuevos algoritmos para resolver problemas y crear nuevas herramientas para automatizar el trabajo.
  • Comunique predicciones y hallazgos a los departamentos de administración y TI a través de visualizaciones e informes efectivos
  • Recomendar cambios rentables en los procedimientos y estrategias existentes.

Científico de aprendizaje automático

  • Realización de experimentos de aprendizaje automático utilizando un lenguaje de programación y bibliotecas de aprendizaje automático.
  • Implementación de soluciones de aprendizaje automático en producción.
  • Mejora de soluciones para escalabilidad y rendimiento.
  • Asegurarse de que haya un gran flujo de datos entre los sistemas de fondo y la base de datos
  • Implementación de código ML personalizado.
  • Análisis de datos y producción de casos de uso.

Entonces, si quieres ser un científico de datos, necesitas tener muchas habilidades, el aprendizaje automático es una de ellas.

Descargo de responsabilidad: soy cofundador de @GreyAtom y ayudo a talentos de ingeniería a encontrar carreras sostenibles en tecnologías emergentes.

El programa insignia altamente selectivo de GreyAtom tiene como objetivo orientar a los profesionales que trabajan y los más novedosos en el inicio de su carrera de ciencia de datos. Los estudiantes crearon proyectos a partir de conjuntos de datos REALES y declaraciones de problemas proporcionadas por nuestra industria y socios de contratación. El programa se basa en el aula y está fuertemente orientado a la práctica. GreyAtom es un ecosistema donde los estudiantes pueden aprovechar lo mejor de la academia, profesionales de la industria y personas influyentes.

Algunos enlaces rápidos

Crédito de la imagen: Inteligencia artificial: otro sitio de la red

Sí, el aprendizaje automático es un subconjunto de la ciencia de datos. La palabra “aprendizaje” en el aprendizaje automático significa que los algoritmos dependen de algunos datos, utilizados como un conjunto de entrenamiento, para ajustar algunos parámetros del modelo o algoritmo. Esto abarca muchas técnicas, como la regresión, la ingenua Bayes o la agrupación supervisada . Pero no todas las técnicas encajan en esta categoría. Por ejemplo, la agrupación no supervisada , una técnica estadística y de ciencia de datos, tiene como objetivo detectar agrupaciones y estructuras de agrupación sin ningún conocimiento o conjunto de capacitación a priori para ayudar al algoritmo de clasificación. Se necesita un ser humano para etiquetar los grupos encontrados.

Sin embargo, la ciencia de datos es mucho más que aprendizaje automático. Los datos, en la ciencia de los datos, pueden o no provenir de una máquina o un proceso mecánico (los datos de la encuesta se pueden recopilar manualmente, los ensayos clínicos involucran un tipo específico de datos pequeños) y puede que no tenga nada que ver con el aprendizaje, como acabamos de mostrar arriba . Pero la principal diferencia es el hecho de que la ciencia de datos cubre todo el espectro del procesamiento de datos, no solo los aspectos algorítmicos o estadísticos. En particular, la ciencia de datos también cubre

  • integración de datos
  • arquitectura distribuida
  • automatizar el aprendizaje automático
  • Visualización de datos
  • tableros y BI
  • ingeniería de datos
  • despliegue en modo de producción
  • decisiones automatizadas basadas en datos

Comuníquese con nosotros para obtener más información sobre inteligencia artificial (IA), aprendizaje automático (ML), análisis relacionados en: Blog, estudios de casos, documentos de investigación

La ciencia de datos se refiere al análisis de datos para obtener algo significativo. El reconocimiento de patrones, la minería de texto, el aprendizaje automático son subconjuntos de este campo. Puede tomar un conjunto de datos, puede verlo todo el día, observar todos los patrones y generar información, todavía se clasificaría en ciencia de datos. Por otro lado, si hace todo esto con la ayuda de máquinas y algoritmos, esto se clasificaría en Aprendizaje automático, que nuevamente se clasificaría en Ciencia de datos.
El aprendizaje automático puede verse como un proceso de ciencia de datos en el que las máquinas están haciendo el “aprendizaje” que están haciendo / que de otra forma harían los humanos (la mayor parte es algo natural). El aprendizaje automático también puede asociarse estrechamente con la inteligencia artificial. (La inteligencia artificial es más compleja)

Los ejemplos de aprendizaje automático de todos los días incluirían el sistema de reconocimiento facial, el sistema de reconocimiento de voz, el filtrado de spam, etc.

En teoría, no hay diferencia entre teoría y práctica. En la práctica, hay.

El aprendizaje automático es para la ciencia de datos lo que Haskell es para la programación funcional: una disciplina de ingeniería surgió de la rama académica correspondiente.

La base es la misma. La rutina de ingeniería consume bastante diversión. El mundo real presenta una plétora de dominios prácticos, lejos de la ciencia, pero con su propio sabor de diversión.

Gracias por el A2A.

En pocas palabras, el aprendizaje automático es una disciplina o un campo que estudia algoritmos que pueden aprender de los datos y, con ese conocimiento, pueden hacer una predicción.

Es una de las herramientas de la ciencia de datos y aborda una gran cantidad de tareas de ciencia de datos.

No es un subconjunto de la ciencia de datos, sino un subconjunto de la informática.

Esta es la mejor respuesta que conozco: de Drew Conway en 2010: el diagrama de Venn de ciencia de datos

El aprendizaje automático (también conocido como aprendizaje estadístico) es una tecnología de habilitación para la ciencia de datos y es la herramienta principal utilizada por los científicos de datos.

More Interesting

¿Cuáles son los algoritmos utilizados en los sistemas de preguntas y respuestas en PNL?

¿Por qué se utiliza un descenso gradiente iterativo para redes neuronales y no inmediato?

¿Qué son las características y clases en ingeniería de características?

¿Los bancos de inversión como Goldman Sachs o JP Morgan utilizan el aprendizaje automático? ¿Contratan a un ingeniero de IA?

¿Qué es una lista de proyectos de IA que podría hacer para mejorar cada vez más en aprender cómo funciona la inteligencia artificial?

¿Cómo sabes que tienes que "maximizar" el lagrangiano para resolver el problema dual?

¿Por qué los nodos en una capa oculta producen resultados diferentes (cuando se basan en las mismas entradas)?

¿Cuál es la diferencia entre hash y minhashing sensibles a la localidad?

¿Qué otros algoritmos / métodos se pueden usar como alternativa al algoritmo vecino más cercano para la medición de distancia y cuál funciona mejor que NN?

¿Aprender implementando un buen enfoque, o leyendo y usando marcos como TensorFlow?

¿Por qué debería uno aprender el aprendizaje automático desde cero en lugar de aprender a usar las bibliotecas disponibles?

Cómo interpretar los resultados de dos modelos de clasificación.

¿Qué es el código de máquina?

¿Es mejor utilizar algoritmos basados ​​en reglas o de aprendizaje automático para la clasificación en un dominio de respuesta a preguntas cerrado?

Explica qué son la precisión y el recuerdo. ¿Cómo se relacionan con la curva ROC?