¿Qué son la ciencia de datos y el aprendizaje automático?

Comencemos con el aprendizaje automático

En resumen, los algoritmos de aprendizaje automático son algoritmos que aprenden modelos (a menudo predictivos) de los datos. Es decir, en lugar de formular “reglas” manualmente, un algoritmo de aprendizaje automático aprenderá el modelo por usted.

¿Cómo puede ayudar la ciencia de datos a impulsar a los países en desarrollo?
Cómo acceder a los valores de estas variables MATLAB en base a una matriz que almacena los índices de las columnas requeridas
¿Puedes citar un ejemplo de ley escrita usando Big Data?
¿Cuál es la forma más eficiente de analizar los datos de transacciones bancarias de Yodlee?
¿Qué nuevas ideas puede proporcionar la ciencia de datos en los datos de transporte?

Entonces, déjame darte un ejemplo para ilustrar lo que eso significa. Digamos que está interesado en implementar un filtro de spam. El enfoque probablemente más conservador sería dejar que una persona clasifique estos correos electrónicos manualmente. Ahora, el enfoque de programación “tradicional” sería mirar algunos correos electrónicos de ejemplo (y / o usar su “conocimiento de dominio”) para elaborar una cadena de reglas como

“si este correo electrónico contiene la palabra X, etiquételo como spam, de lo contrario, si el correo electrónico contiene …”

Ahora, los algoritmos de aprendizaje automático lo ayudan a formular estas reglas. O, en otras palabras, los algoritmos de aprendizaje automático (supervisados) analizarán un conjunto de datos de correos electrónicos etiquetados (spam y no spam) y derivarán reglas a partir de ahí para separar las dos clases.

Entonces, ¿qué es la ciencia de datos?

En primer lugar, la ciencia de datos es un término bastante ambiguo, mal definido y un campo interdisciplinario; y las personas quieren decir (esperar) cosas diferentes en diferentes contextos. En mi opinión, en la práctica, la ciencia de datos es más o menos lo que hemos conocido como minería de datos o KDD (Knowledge Discovery in Databases). Las habilidades típicas de un científico de datos son

Informática: programación, comprensión del hardware, etc.
Matemáticas: álgebra lineal, cálculo, estadística
Comunicación: visualización y presentación.
Conocimiento del dominio

Cuando el aprendizaje automático, en esencia, se trata del uso y desarrollo de estos algoritmos de aprendizaje, la ciencia de datos se trata más de la extracción de conocimiento de los datos para responder preguntas particulares o resolver problemas particulares.

El aprendizaje automático es a menudo una gran parte de un proyecto de “ciencia de datos”, por ejemplo, a menudo se usa mucho para análisis exploratorio y descubrimiento (algoritmos de agrupamiento) y para construir modelos predictivos (algoritmos de aprendizaje supervisado). Sin embargo, en la ciencia de los datos, a menudo también le preocupa la recopilación, las disputas y la limpieza de sus datos (es decir, la ingeniería de datos) y, finalmente, desea sacar conclusiones de sus datos que lo ayuden a resolver un problema en particular.

Existen numerosos ejemplos de aplicaciones de ciencia de datos. Suponga que está trabajando para una compañía de crédito. Su jefe le da la tarea de averiguar si un cliente es solvente o no. Recopila datos de transacciones, tal vez registros de envío y calificaciones de clientes, etc. A continuación, probablemente usará un algoritmo de aprendizaje automático para aprender un modelo predictivo. Por ejemplo, supongamos que eligió hacer crecer un árbol de decisión y concluyó que este cliente en particular no es solvente. Finalmente, prepara una buena presentación visualizando el árbol de decisiones para responder la siguiente pregunta de su jefe: ¿Por qué este cliente no es solvente? …

¿Hay alguna manera de que podamos incorporar la genómica y las imágenes médicas a la ciencia de datos como postgrado?

¿Es SPSS una herramienta de minería de datos más apropiada que Weka?

¿Cuál es la mejor manera para que un gerente de producto gane competencia en ciencias de datos en su tiempo libre (es decir, no en el trabajo)?

¿Cuál es la fuente de datos perfecta para el análisis de sentimientos a nivel de documento?

Aproximadamente, ¿cuántos minutos de uso de Internet obtienes con 5 GB de datos?

¿Cómo debe establecerse el propósito de un servidor de datos?

El aprendizaje automático es un subconjunto de la ciencia de datos. Data Science es un término amplio que comprende estadísticas, programación, visualización de datos, big data, aprendizaje automático y mucho más.

El término aprendizaje automático se explica por sí mismo. Las máquinas aprenden a realizar tareas que no están programadas específicamente para hacer. Muchas técnicas se ponen en práctica, como la agrupación supervisada, la regresión, las ingenuas Bayes, etc.

El aprendizaje automático es solo una parte de la ciencia de datos. La ciencia de datos es un gran paraguas que cubre todos y cada uno de los aspectos del procesamiento de datos y no solo los aspectos estadísticos o algorítmicos. Por mencionar, la ciencia de datos incluye

Visualización de datos
integración de datos
tableros y BI
arquitectura distribuida
decisiones automatizadas basadas en datos
automatizar el aprendizaje automático
despliegue en modo de producción
ingeniería de datos

El aprendizaje automático ayuda a la ciencia de datos al proporcionar análisis de datos, preparación de datos e incluso la toma de decisiones como pruebas en tiempo real, aprendizaje en línea. Los clubes de ciencia de datos combinan algoritmos derivados del aprendizaje automático para proporcionar una solución. La ciencia de datos lleva a cabo esta actividad tomando muchas ideas de matemáticas básicas, estadísticas y experiencia en el dominio.

Para ser precisos, la ciencia de datos es el proceso de proporcionar una solución a un problema donde el aprendizaje automático juega un papel importante en esa solución.

Para comprender qué hacen exactamente un científico de datos y un científico de aprendizaje automático, echemos un vistazo a las habilidades de ambos.

Científico de datos

Realizar investigaciones no dirigidas y formular preguntas abiertas a la industria
Extrae grandes volúmenes de datos de múltiples fuentes internas y externas.
Emplee sofisticados programas de análisis, aprendizaje automático y métodos estadísticos para preparar datos para su uso en modelos predictivos y prescriptivos.
Limpie y pode a fondo los datos para descartar información irrelevante
Explore y examine datos desde una variedad de ángulos para determinar las debilidades, tendencias y / u oportunidades ocultas.
Forme soluciones basadas en datos para los desafíos más apremiantes
Inventar nuevos algoritmos para resolver problemas y crear nuevas herramientas para automatizar el trabajo.
Comunique predicciones y hallazgos a los departamentos de administración y TI a través de visualizaciones e informes efectivos
Recomendar cambios rentables en los procedimientos y estrategias existentes.

Científico de aprendizaje automático

Realización de experimentos de aprendizaje automático utilizando un lenguaje de programación y bibliotecas de aprendizaje automático.
Implementación de soluciones de aprendizaje automático en producción.
Mejora de soluciones para escalabilidad y rendimiento.
Asegurarse de que haya un gran flujo de datos entre los sistemas de fondo y la base de datos
Implementación de código ML personalizado.
Análisis de datos y producción de casos de uso.

Entonces, si quieres ser un científico de datos, necesitas tener muchas habilidades, el aprendizaje automático es una de ellas.

Descargo de responsabilidad: soy cofundador de @GreyAtom y ayudo a talentos de ingeniería a encontrar carreras sostenibles en tecnologías emergentes.

El programa insignia altamente selectivo de GreyAtom tiene como objetivo orientar a los profesionales que trabajan y los más novedosos en el inicio de su carrera de ciencia de datos. Los estudiantes crearon proyectos a partir de conjuntos de datos REALES y declaraciones de problemas proporcionadas por nuestra industria y socios de contratación. El programa se basa en el aula y está fuertemente orientado a la práctica. GreyAtom es un ecosistema donde los estudiantes pueden aprovechar lo mejor de la academia, profesionales de la industria y personas influyentes.

Algunos enlaces rápidos

Programa – http://www.greyatom.com/full-sta …
Chatee con un consejero académico: le invitamos a compartir todas sus dudas e inseguridades, a las que haremos todo lo posible para guiarlo hacia su camino profesional hacia el éxito. https://calendly.com/greyatom/co …
Panel de discusión en GreyAtom – https://www.youtube.com/watch?v= … https://www.youtube.com/watch?v= …

Rahul Bohare

Me gusta la respuesta de Sebastian Raschka y recomiendo leerla para una muy buena explicación. Probaré una respuesta muy simple en términos simples que cualquiera puede usar como punto de partida cuando busque definiciones:

El aprendizaje automático está contenido dentro de Data Science, cada vez que se utiliza un algoritmo de ML está haciendo Data Science. Esto es muy fácil de explicar: los algoritmos de ML aprenden de los datos, por lo tanto, está haciendo Data Science, eso es automático.

Puede hacer Data Science sin ML, por lo que Data Science es un concepto más amplio. Hay miles de cosas que son ciencia de datos sin ML: inferencia estadística, recopilación de datos, limpieza de datos, visualización, recuperación de información, análisis bayesiano, etc.

Tan brutalmente diría que Data Science es cualquier cosa que intente responder una pregunta utilizando datos y ML es una de las muchas formas de hacerlo.

Rahul Bohare

El aprendizaje automático se trata de enseñar a las computadoras a aprender. Esto implica dos pasos. En el primero, el humano escribe un código de “aprendizaje” que encuentra patrones en los datos, identifica qué patrones son similares e informa esa similitud (conocimiento) de una manera útil. En el segundo paso, el ser humano escribe más código que usa ese conocimiento, de modo que cuando se encuentran nuevos datos, este código “predictivo” puede anticipar el valor de los datos o interpretarlo como que tiene un significado, en contexto con lo que ya se conoce.

En esencia, la ciencia de datos se trata de usar métodos científicos y una computadora para explorar datos usando hipótesis y experimentos para encontrar patrones que puedan ser interesantes (económicamente valiosos, por lo general). A veces diseñas y conduces experimentos, pero generalmente tus métodos científicos son solo de observación (ya que los datos ya existen). Gran parte de la práctica de DS requiere que identifique qué patrones serían de interés, luego busque y mejore su señal (utilizando la limpieza de datos y el análisis exploratorio de datos).

Por lo tanto, el aprendizaje automático se encuentra en el corazón de la ciencia de datos, porque a menudo no se conocen los patrones en los datos disponibles y se requiere mucho esfuerzo para explorar y mejorar los datos y ajustar sus funciones de reconocimiento de patrones para detectar señales de manera precisa y confiable.

Luis Argerich

El aprendizaje automático y las estadísticas son parte de la ciencia de datos. La palabra aprendizaje en aprendizaje automático significa que los algoritmos dependen de algunos datos, utilizados como un conjunto de entrenamiento, para ajustar algunos parámetros del modelo o algoritmo. Esto abarca muchas técnicas, como la regresión, la ingenua Bayes o la agrupación supervisada. Pero no todas las técnicas encajan en esta categoría. Por ejemplo, la agrupación no supervisada, una técnica estadística y de ciencia de datos, tiene como objetivo detectar agrupaciones y estructuras de agrupación sin ningún conocimiento o conjunto de capacitación a priori para ayudar al algoritmo de clasificación. Se necesita un ser humano para etiquetar los grupos encontrados. Algunas técnicas son híbridas, como la clasificación semi-supervisada. Algunas técnicas de detección de patrones o de estimación de densidad encajan en esta categoría.

Sin embargo, la ciencia de datos es mucho más que aprendizaje automático. Los datos, en la ciencia de los datos, pueden provenir o no de una máquina o un proceso mecánico (los datos de la encuesta se pueden recopilar manualmente, los ensayos clínicos involucran un tipo específico de datos pequeños) y puede que no tenga nada que ver con el aprendizaje, como acabo de comentar. Pero la principal diferencia es el hecho de que la ciencia de datos cubre todo el espectro del procesamiento de datos, no solo los aspectos algorítmicos o estadísticos. En particular, la ciencia de datos también cubre

integración de datos
arquitectura distribuida
automatizar el aprendizaje automático
Visualización de datos
tableros y BI
ingeniería de datos
despliegue en modo de producción
decisiones automatizadas basadas en datos

¡¡¡Espero que esto te ayudará!!!

Ravi Kumar

Te puede interesar leer lo siguiente

¿Cuál es la diferencia entre análisis de datos, análisis de datos, minería de datos, ciencia de datos, aprendizaje automático y Big Data?

¿Cuál es la diferencia entre ciencia de datos, inteligencia artificial y aprendizaje automático?

¿Cuál es la conexión entre la ciencia de datos y la inteligencia artificial? ¿Es aprendizaje automático?

Sebastian Raschka

El aprendizaje automático es un campo en crecimiento que se utiliza al buscar en la web, colocar anuncios, calificación crediticia, negociación de acciones y para muchas otras aplicaciones.

Qué es el aprendizaje automático y cómo se relaciona con las estadísticas y el análisis de datos
Cómo el aprendizaje automático utiliza algoritmos informáticos para buscar patrones en los datos
Cómo usar patrones de datos para tomar decisiones y predicciones con ejemplos del mundo real de la atención médica que implican genómica y parto prematuro
Cómo descubrir temas ocultos en grandes colecciones de documentos utilizando el modelado de temas
Cómo preparar datos, lidiar con datos faltantes y crear soluciones de análisis de datos personalizadas para diferentes industrias
Técnicas algorítmicas básicas y de uso frecuente que incluyen clasificación, búsqueda, algoritmos codiciosos y programación dinámica.

Rahul Bohare

Tratemos de entender la diferencia entre ciencia de datos y aprendizaje automático en lenguaje laico.

Ciencia de datos: la ciencia de datos es una mezcla multidisciplinaria de desarrollo de algoritmos, inferencia de datos y tecnología extraer información de los datos en varias formas para resolver problemas analíticamente complejos.

Machine Learning: Machine Learning es un subconjunto de Inteligencia Artificial (IA) eso le da a las máquinas la capacidad de aprender sin ser programadas explícitamente. En los últimos años, el aprendizaje automático nos ha brindado una búsqueda efectiva en la web, reconocimiento práctico del habla, automóviles autónomos y una comprensión mucho mejor del genoma humano.

Sebastian Raschka

Data Science es el proceso de encontrar información (patrón de un conjunto de datos grandes) para resolver un problema particular. por ejemplo, si hay un millón de conjuntos de datos de préstamos personales de clientes, ¿podemos predecir las personas que pueden incumplir en una región en particular en función de los datos disponibles o podemos clasificar el problema y clasificarlo en función del gran conjunto de datos que tenemos.

Aquí hacemos lo siguiente:

Analizar el conjunto de datos.

Siga la técnica EDA en los datos de prueba (20-30 por ciento) de los datos y encuentre el modelo de aprendizaje automático que se ajuste a ellos. El modelo de aprendizaje automático funciona en el conjunto de datos repetidamente para ajustarse a la mayoría del valor (curva estadística).

verifique que haya un buen ajuste (no una curva de ajuste insuficiente y exceso) y aplique ese algoritmo de aprendizaje automático en el conjunto de datos de porcentaje de descanso (70–80).

Espero que esto aclare tu pregunta.

si necesita más orientación, puede escribirme: [correo electrónico protegido]

Descargo de responsabilidad: soy el fundador de Sniffer Search, plataforma de capacitación en línea sobre ciencia de datos y Python

Praveen Reddy

Ciencia de datos y aprendizaje automático:

Si desea obtener más información sobre Data Science y Machine Learning, puedo compartir un enlace de video tutorial gratuito.

Ciencia de datos y aprendizaje automático

Maudie Myers

El aprendizaje automático y las estadísticas son parte de la ciencia de datos . La palabra aprendizaje en aprendizaje automático significa que los algoritmos dependen de algunos datos , utilizados como un conjunto de entrenamiento, para ajustar algunos parámetros del modelo o algoritmo. Esto abarca muchas técnicas, como la regresión, la ingenua Bayes o la agrupación supervisada.

Maya Thakkar

La ciencia de datos es el proceso de comprender datos no estructurados, definiendo conjuntos de datos para buscar datos.

Los conjuntos de datos definidos son salida del programa.

Sebastian Raschka

More Interesting

Tengo 24 años y tengo habilidades básicas de análisis de datos (R, Python, SQL, estadísticas, cálculo, etc.). Actualmente trabajo para una empresa de comercio de bonos, pero no soy lo suficientemente bueno (ni quiero) ser analista o ingeniero de datos profesionales. ¿Qué trabajos involucran estas habilidades en menor grado / qué otras habilidades los complementarían?

¿Qué corporaciones / empresas multinacionales indias están contratando para trabajos de nivel de entrada en ciencia de datos o análisis de datos? ¿Cuáles son los requisitos para lo mismo?

Incluso utilizando un conjunto de validación, ¿no estamos tratando de maximizar los resultados en el conjunto de prueba? ¿Y al final sobreajustando?

¿Qué cursos o certificados puedo seguir para prepararme para trabajar en el análisis de datos?

¿Revisará mi currículum para los puestos de Analista de datos / Científico de datos y proporcionará algunos comentarios?

¿Qué tipos específicos de aprendizaje automático beneficiarán el análisis de datos para la fabricación y cómo?

Cómo diseñar un clasificador SOM