¿Qué son la ciencia de datos y el aprendizaje automático?

Comencemos con el aprendizaje automático

En resumen, los algoritmos de aprendizaje automático son algoritmos que aprenden modelos (a menudo predictivos) de los datos. Es decir, en lugar de formular “reglas” manualmente, un algoritmo de aprendizaje automático aprenderá el modelo por usted.

Entonces, déjame darte un ejemplo para ilustrar lo que eso significa. Digamos que está interesado en implementar un filtro de spam. El enfoque probablemente más conservador sería dejar que una persona clasifique estos correos electrónicos manualmente. Ahora, el enfoque de programación “tradicional” sería mirar algunos correos electrónicos de ejemplo (y / o usar su “conocimiento de dominio”) para elaborar una cadena de reglas como

“si este correo electrónico contiene la palabra X, etiquételo como spam, de lo contrario, si el correo electrónico contiene …”

Ahora, los algoritmos de aprendizaje automático lo ayudan a formular estas reglas. O, en otras palabras, los algoritmos de aprendizaje automático (supervisados) analizarán un conjunto de datos de correos electrónicos etiquetados (spam y no spam) y derivarán reglas a partir de ahí para separar las dos clases.

Entonces, ¿qué es la ciencia de datos?

En primer lugar, la ciencia de datos es un término bastante ambiguo, mal definido y un campo interdisciplinario; y las personas quieren decir (esperar) cosas diferentes en diferentes contextos. En mi opinión, en la práctica, la ciencia de datos es más o menos lo que hemos conocido como minería de datos o KDD (Knowledge Discovery in Databases). Las habilidades típicas de un científico de datos son

  • Informática: programación, comprensión del hardware, etc.
  • Matemáticas: álgebra lineal, cálculo, estadística
  • Comunicación: visualización y presentación.
  • Conocimiento del dominio

Cuando el aprendizaje automático, en esencia, se trata del uso y desarrollo de estos algoritmos de aprendizaje, la ciencia de datos se trata más de la extracción de conocimiento de los datos para responder preguntas particulares o resolver problemas particulares.

El aprendizaje automático es a menudo una gran parte de un proyecto de “ciencia de datos”, por ejemplo, a menudo se usa mucho para análisis exploratorio y descubrimiento (algoritmos de agrupamiento) y para construir modelos predictivos (algoritmos de aprendizaje supervisado). Sin embargo, en la ciencia de los datos, a menudo también le preocupa la recopilación, las disputas y la limpieza de sus datos (es decir, la ingeniería de datos) y, finalmente, desea sacar conclusiones de sus datos que lo ayuden a resolver un problema en particular.

Existen numerosos ejemplos de aplicaciones de ciencia de datos. Suponga que está trabajando para una compañía de crédito. Su jefe le da la tarea de averiguar si un cliente es solvente o no. Recopila datos de transacciones, tal vez registros de envío y calificaciones de clientes, etc. A continuación, probablemente usará un algoritmo de aprendizaje automático para aprender un modelo predictivo. Por ejemplo, supongamos que eligió hacer crecer un árbol de decisión y concluyó que este cliente en particular no es solvente. Finalmente, prepara una buena presentación visualizando el árbol de decisiones para responder la siguiente pregunta de su jefe: ¿Por qué este cliente no es solvente? …

El aprendizaje automático es un subconjunto de la ciencia de datos. Data Science es un término amplio que comprende estadísticas, programación, visualización de datos, big data, aprendizaje automático y mucho más.

El término aprendizaje automático se explica por sí mismo. Las máquinas aprenden a realizar tareas que no están programadas específicamente para hacer. Muchas técnicas se ponen en práctica, como la agrupación supervisada, la regresión, las ingenuas Bayes, etc.

El aprendizaje automático es solo una parte de la ciencia de datos. La ciencia de datos es un gran paraguas que cubre todos y cada uno de los aspectos del procesamiento de datos y no solo los aspectos estadísticos o algorítmicos. Por mencionar, la ciencia de datos incluye

  • Visualización de datos
  • integración de datos
  • tableros y BI
  • arquitectura distribuida
  • decisiones automatizadas basadas en datos
  • automatizar el aprendizaje automático
  • despliegue en modo de producción
  • ingeniería de datos

El aprendizaje automático ayuda a la ciencia de datos al proporcionar análisis de datos, preparación de datos e incluso la toma de decisiones como pruebas en tiempo real, aprendizaje en línea. Los clubes de ciencia de datos combinan algoritmos derivados del aprendizaje automático para proporcionar una solución. La ciencia de datos lleva a cabo esta actividad tomando muchas ideas de matemáticas básicas, estadísticas y experiencia en el dominio.

Para ser precisos, la ciencia de datos es el proceso de proporcionar una solución a un problema donde el aprendizaje automático juega un papel importante en esa solución.

Para comprender qué hacen exactamente un científico de datos y un científico de aprendizaje automático, echemos un vistazo a las habilidades de ambos.

Científico de datos

  • Realizar investigaciones no dirigidas y formular preguntas abiertas a la industria
  • Extrae grandes volúmenes de datos de múltiples fuentes internas y externas.
  • Emplee sofisticados programas de análisis, aprendizaje automático y métodos estadísticos para preparar datos para su uso en modelos predictivos y prescriptivos.
  • Limpie y pode a fondo los datos para descartar información irrelevante
  • Explore y examine datos desde una variedad de ángulos para determinar las debilidades, tendencias y / u oportunidades ocultas.
  • Forme soluciones basadas en datos para los desafíos más apremiantes
  • Inventar nuevos algoritmos para resolver problemas y crear nuevas herramientas para automatizar el trabajo.
  • Comunique predicciones y hallazgos a los departamentos de administración y TI a través de visualizaciones e informes efectivos
  • Recomendar cambios rentables en los procedimientos y estrategias existentes.

Científico de aprendizaje automático

  • Realización de experimentos de aprendizaje automático utilizando un lenguaje de programación y bibliotecas de aprendizaje automático.
  • Implementación de soluciones de aprendizaje automático en producción.
  • Mejora de soluciones para escalabilidad y rendimiento.
  • Asegurarse de que haya un gran flujo de datos entre los sistemas de fondo y la base de datos
  • Implementación de código ML personalizado.
  • Análisis de datos y producción de casos de uso.

Entonces, si quieres ser un científico de datos, necesitas tener muchas habilidades, el aprendizaje automático es una de ellas.

Descargo de responsabilidad: soy cofundador de @GreyAtom y ayudo a talentos de ingeniería a encontrar carreras sostenibles en tecnologías emergentes.

El programa insignia altamente selectivo de GreyAtom tiene como objetivo orientar a los profesionales que trabajan y los más novedosos en el inicio de su carrera de ciencia de datos. Los estudiantes crearon proyectos a partir de conjuntos de datos REALES y declaraciones de problemas proporcionadas por nuestra industria y socios de contratación. El programa se basa en el aula y está fuertemente orientado a la práctica. GreyAtom es un ecosistema donde los estudiantes pueden aprovechar lo mejor de la academia, profesionales de la industria y personas influyentes.

Algunos enlaces rápidos

Me gusta la respuesta de Sebastian Raschka y recomiendo leerla para una muy buena explicación. Probaré una respuesta muy simple en términos simples que cualquiera puede usar como punto de partida cuando busque definiciones:

El aprendizaje automático está contenido dentro de Data Science, cada vez que se utiliza un algoritmo de ML está haciendo Data Science. Esto es muy fácil de explicar: los algoritmos de ML aprenden de los datos, por lo tanto, está haciendo Data Science, eso es automático.

Puede hacer Data Science sin ML, por lo que Data Science es un concepto más amplio. Hay miles de cosas que son ciencia de datos sin ML: inferencia estadística, recopilación de datos, limpieza de datos, visualización, recuperación de información, análisis bayesiano, etc.

Tan brutalmente diría que Data Science es cualquier cosa que intente responder una pregunta utilizando datos y ML es una de las muchas formas de hacerlo.

El aprendizaje automático se trata de enseñar a las computadoras a aprender. Esto implica dos pasos. En el primero, el humano escribe un código de “aprendizaje” que encuentra patrones en los datos, identifica qué patrones son similares e informa esa similitud (conocimiento) de una manera útil. En el segundo paso, el ser humano escribe más código que usa ese conocimiento, de modo que cuando se encuentran nuevos datos, este código “predictivo” puede anticipar el valor de los datos o interpretarlo como que tiene un significado, en contexto con lo que ya se conoce.

En esencia, la ciencia de datos se trata de usar métodos científicos y una computadora para explorar datos usando hipótesis y experimentos para encontrar patrones que puedan ser interesantes (económicamente valiosos, por lo general). A veces diseñas y conduces experimentos, pero generalmente tus métodos científicos son solo de observación (ya que los datos ya existen). Gran parte de la práctica de DS requiere que identifique qué patrones serían de interés, luego busque y mejore su señal (utilizando la limpieza de datos y el análisis exploratorio de datos).

Por lo tanto, el aprendizaje automático se encuentra en el corazón de la ciencia de datos, porque a menudo no se conocen los patrones en los datos disponibles y se requiere mucho esfuerzo para explorar y mejorar los datos y ajustar sus funciones de reconocimiento de patrones para detectar señales de manera precisa y confiable.

El aprendizaje automático y las estadísticas son parte de la ciencia de datos. La palabra aprendizaje en aprendizaje automático significa que los algoritmos dependen de algunos datos, utilizados como un conjunto de entrenamiento, para ajustar algunos parámetros del modelo o algoritmo. Esto abarca muchas técnicas, como la regresión, la ingenua Bayes o la agrupación supervisada. Pero no todas las técnicas encajan en esta categoría. Por ejemplo, la agrupación no supervisada, una técnica estadística y de ciencia de datos, tiene como objetivo detectar agrupaciones y estructuras de agrupación sin ningún conocimiento o conjunto de capacitación a priori para ayudar al algoritmo de clasificación. Se necesita un ser humano para etiquetar los grupos encontrados. Algunas técnicas son híbridas, como la clasificación semi-supervisada. Algunas técnicas de detección de patrones o de estimación de densidad encajan en esta categoría.

Sin embargo, la ciencia de datos es mucho más que aprendizaje automático. Los datos, en la ciencia de los datos, pueden provenir o no de una máquina o un proceso mecánico (los datos de la encuesta se pueden recopilar manualmente, los ensayos clínicos involucran un tipo específico de datos pequeños) y puede que no tenga nada que ver con el aprendizaje, como acabo de comentar. Pero la principal diferencia es el hecho de que la ciencia de datos cubre todo el espectro del procesamiento de datos, no solo los aspectos algorítmicos o estadísticos. En particular, la ciencia de datos también cubre

  • integración de datos
  • arquitectura distribuida
  • automatizar el aprendizaje automático
  • Visualización de datos
  • tableros y BI
  • ingeniería de datos
  • despliegue en modo de producción
  • decisiones automatizadas basadas en datos

¡¡¡Espero que esto te ayudará!!!

Te puede interesar leer lo siguiente

¿Cuál es la diferencia entre análisis de datos, análisis de datos, minería de datos, ciencia de datos, aprendizaje automático y Big Data?

¿Cuál es la diferencia entre ciencia de datos, inteligencia artificial y aprendizaje automático?

¿Cuál es la conexión entre la ciencia de datos y la inteligencia artificial? ¿Es aprendizaje automático?

El aprendizaje automático es un campo en crecimiento que se utiliza al buscar en la web, colocar anuncios, calificación crediticia, negociación de acciones y para muchas otras aplicaciones.

  • Qué es el aprendizaje automático y cómo se relaciona con las estadísticas y el análisis de datos
  • Cómo el aprendizaje automático utiliza algoritmos informáticos para buscar patrones en los datos
  • Cómo usar patrones de datos para tomar decisiones y predicciones con ejemplos del mundo real de la atención médica que implican genómica y parto prematuro
  • Cómo descubrir temas ocultos en grandes colecciones de documentos utilizando el modelado de temas
  • Cómo preparar datos, lidiar con datos faltantes y crear soluciones de análisis de datos personalizadas para diferentes industrias
  • Técnicas algorítmicas básicas y de uso frecuente que incluyen clasificación, búsqueda, algoritmos codiciosos y programación dinámica.

Tratemos de entender la diferencia entre ciencia de datos y aprendizaje automático en lenguaje laico.

Ciencia de datos: la ciencia de datos es una mezcla multidisciplinaria de desarrollo de algoritmos, inferencia de datos y tecnología extraer información de los datos en varias formas para resolver problemas analíticamente complejos.

Machine Learning: Machine Learning es un subconjunto de Inteligencia Artificial (IA) eso le da a las máquinas la capacidad de aprender sin ser programadas explícitamente. En los últimos años, el aprendizaje automático nos ha brindado una búsqueda efectiva en la web, reconocimiento práctico del habla, automóviles autónomos y una comprensión mucho mejor del genoma humano.

Data Science es el proceso de encontrar información (patrón de un conjunto de datos grandes) para resolver un problema particular. por ejemplo, si hay un millón de conjuntos de datos de préstamos personales de clientes, ¿podemos predecir las personas que pueden incumplir en una región en particular en función de los datos disponibles o podemos clasificar el problema y clasificarlo en función del gran conjunto de datos que tenemos.

Aquí hacemos lo siguiente:

Analizar el conjunto de datos.

Siga la técnica EDA en los datos de prueba (20-30 por ciento) de los datos y encuentre el modelo de aprendizaje automático que se ajuste a ellos. El modelo de aprendizaje automático funciona en el conjunto de datos repetidamente para ajustarse a la mayoría del valor (curva estadística).

verifique que haya un buen ajuste (no una curva de ajuste insuficiente y exceso) y aplique ese algoritmo de aprendizaje automático en el conjunto de datos de porcentaje de descanso (70–80).

Espero que esto aclare tu pregunta.

si necesita más orientación, puede escribirme: [correo electrónico protegido]

Descargo de responsabilidad: soy el fundador de Sniffer Search, plataforma de capacitación en línea sobre ciencia de datos y Python

Ciencia de datos y aprendizaje automático:

Si desea obtener más información sobre Data Science y Machine Learning, puedo compartir un enlace de video tutorial gratuito.

Ciencia de datos y aprendizaje automático

El aprendizaje automático y las estadísticas son parte de la ciencia de datos . La palabra aprendizaje en aprendizaje automático significa que los algoritmos dependen de algunos datos , utilizados como un conjunto de entrenamiento, para ajustar algunos parámetros del modelo o algoritmo. Esto abarca muchas técnicas, como la regresión, la ingenua Bayes o la agrupación supervisada.

La ciencia de datos es el proceso de comprender datos no estructurados, definiendo conjuntos de datos para buscar datos.

Los conjuntos de datos definidos son salida del programa.

More Interesting

Tengo 24 años y tengo habilidades básicas de análisis de datos (R, Python, SQL, estadísticas, cálculo, etc.). Actualmente trabajo para una empresa de comercio de bonos, pero no soy lo suficientemente bueno (ni quiero) ser analista o ingeniero de datos profesionales. ¿Qué trabajos involucran estas habilidades en menor grado / qué otras habilidades los complementarían?

¿Qué corporaciones / empresas multinacionales indias están contratando para trabajos de nivel de entrada en ciencia de datos o análisis de datos? ¿Cuáles son los requisitos para lo mismo?

Incluso utilizando un conjunto de validación, ¿no estamos tratando de maximizar los resultados en el conjunto de prueba? ¿Y al final sobreajustando?

¿Qué cursos o certificados puedo seguir para prepararme para trabajar en el análisis de datos?

¿Revisará mi currículum para los puestos de Analista de datos / Científico de datos y proporcionará algunos comentarios?

¿Qué tipos específicos de aprendizaje automático beneficiarán el análisis de datos para la fabricación y cómo?

Cómo diseñar un clasificador SOM

¿Cuáles son las mejores revistas de estudios de datos críticos?

¿Cuál es el requisito de hardware y software para la minería de datos?

¿Cuál es exactamente la diferencia entre IA, aprendizaje automático y ciencia de datos? ¿Cómo puedo hacer una carrera en el mismo?

¿Qué posibilidades futuras ve en la intersección de la ciencia de datos y las finanzas?

¿Cómo es ser un científico de datos en Publicis?

¿Cuáles son algunos buenos problemas con los juguetes (un solo codificador puede hacer durante un fin de semana) en ciencia de datos? Estoy estudiando el aprendizaje automático y las estadísticas, y estoy buscando algo socialmente relevante utilizando conjuntos de datos / API disponibles públicamente.

Aprendizaje profundo: ¿Cuándo aplicamos la eliminación de ruido en el codificador automático de eliminación de ruido?

¿Qué es mejor para un conjunto de habilidades Java / J2EE: análisis de big data o middleware de WebSphere?