¿Cuál es la diferencia entre análisis de datos, análisis de datos, minería de datos, ciencia de datos, aprendizaje automático y Big Data?

Llevaba unos días queriendo apuñalar a esta, pero siempre me pareció una tarea enorme, porque esta pregunta ha usado demasiadas palabras. Además, esta es una pregunta sobre la cual muchas personas tienen sus ojos, y muchas otras ya han escrito respuestas elaboradas.

Permítanme primero reordenar todas las palabras importantes:

Imagine que desea convertirse en un científico de datos y trabajar en una gran organización como Amazon, Intel, Google, FB, Apple, etc.

¿Cómo se vería eso?

  • Tendría que lidiar con big data , tendría que escribir programas de computadora en SQL, Python, R, C ++, Java, Scala, Ruby … y así sucesivamente, para mantener solo bases de datos de big data. Serías llamado administrador de la base de datos.
  • Como ingeniero que trabaja en el control de procesos, o alguien que desea racionalizar las operaciones de la empresa, realizaría Minería de datos y Análisis de datos ; Puede usar un software simple para hacer esto donde solo correría una gran cantidad de códigos escritos por otros, o podría estar escribiendo sus códigos elaborados en SQL, Python, R y estaría haciendo minería de datos, limpieza de datos, análisis de datos, modelado , modelado predictivo, etc.
  • Todo esto se llamará Analytics . Existen varios programas para hacer esto. Uno popular es Tableau. Algunos otros son JMP y SAS. Mucha gente hace todo en línea donde se puede utilizar una configuración de inteligencia empresarial basada en SAP. Aquí, los informes simples se pueden hacer fácilmente.
  • Además, podría utilizar el aprendizaje automático para sacar conclusiones y generar predicciones, siempre que no sea posible obtener respuestas analíticas. Piense en las respuestas analíticas como el tipo [If / then] de programas de computadora, donde todas las condiciones de entrada ya se conocen y solo cambian algunos parámetros.
  • El aprendizaje automático utiliza análisis estadísticos para particionar datos. Un ejemplo sería este: lea los comentarios escritos por varias personas en Yelp y prediga a partir de los comentarios si la persona hubiera marcado un restaurante de 4 o 5 estrellas.
  • Si eso no es suficiente, también podría utilizar el aprendizaje profundo. El aprendizaje profundo se utiliza para procesar datos como archivos musicales, imágenes, incluso datos de texto como lenguajes naturales, donde los datos son enormes, pero su tipo es muy diverso.
  • Utilizaría todo a su favor: soluciones analíticas, particionamiento de datos, piratería mental, automatización mediante programación, informes, conclusiones, toma de decisiones, acciones y narración de sus datos.
  • Por último, pero no menos importante, una parte de esto sucederá en el control de crucero, donde es posible que no esté allí físicamente, pero los programas que haya creado harían la mayoría de las cosas por sí mismos. Probablemente si lo llevas al nivel de IA, algún día puede ser más inteligente que tú, no hace falta decir que ya sería más rápido que tú. Un día puede llegar al nivel que puede sorprenderlo con las soluciones que quizás ni siquiera haya imaginado.
  • Ahora eres un científico de datos, y lo que harías se llama ciencia de datos.
  • Cualquier cosa que hagas puede ser vista o no por personas ajenas a tu empresa, como personas que le hacen varias preguntas a Alexa si trabajas para Amazon, o personas que hacen preguntas para aceptar Google si trabajas para Google. O puede que no vean nada de lo que haces. Sus funciones ayudarían a las empresas a diseñar mejor las cosas.
  • Para hacer todo esto, es posible que necesite mucha experiencia en el manejo de datos y el conocimiento de algunos lenguajes de programación.
  • Un diagrama de Venn de ciencia de datos popular que he visto en Internet está aquí: tenga en cuenta que un científico de datos está en la intersección de muchas cosas. Comunicación, estadísticas, programación y negocios.

  • Lee también:
  • La respuesta de Rohit Malshe a ¿Cómo aprendo el aprendizaje automático?
  • La respuesta de Rohit Malshe a ¿Cómo debo comenzar a aprender Python?
  • La respuesta de Rohit Malshe a ¿Qué es el aprendizaje profundo? ¿Por qué es esta una tendencia creciente en el aprendizaje automático? ¿Por qué no usar SVM?
  • La respuesta de Rohit Malshe a ¿Vale la pena el dinero y el tiempo por ‘caminos curados para una carrera de ciencia de datos’ en Coursera?

Con toda seriedad, si desea una documentación elaborada sobre todo esto, sugeriría, continúe y lea este informe de McKinsey para obtener una comprensión completa. Solo extraje algunas secciones convenientemente porque solo quería agregar lo mejor del conocimiento de otra persona y reunir estos conceptos como una historia para inspirar a las personas a pensar en este tema y comenzar sus propios viajes.

Big data: la próxima frontera para la innovación, la competencia y la productividad

Contestaré algunas preguntas paso a paso, y siempre que sea posible, le daré algunas imágenes o diagramas para mostrarle cómo son las cosas.

¡Consultores de McKinsey! Eres increíble, así que si lees las cosas escritas en esta respuesta que escribiste en algún momento, te doy todo el crédito.

  • ¿Qué queremos decir con “big data”?
  • “Big data” se refiere a conjuntos de datos cuyo tamaño está más allá de la capacidad de las herramientas de software de bases de datos típicas para capturar, almacenar, administrar y analizar. Esta definición es intencionalmente subjetiva e incorpora una definición móvil de cuán grande debe ser un conjunto de datos para ser considerado big data, es decir, no necesitamos definir big data en términos de ser mayor que un cierto número de terabytes (miles de gigabytes) . Suponemos que, a medida que la tecnología avanza con el tiempo, el tamaño de los conjuntos de datos que califican como big data también aumentará. También tenga en cuenta que la definición puede variar según el sector, dependiendo de qué tipos de herramientas de software están comúnmente disponibles y qué tamaños de conjuntos de datos son comunes en una industria en particular. Con esas advertencias, la gran cantidad de datos en muchos sectores hoy variará desde unas pocas docenas de terabytes hasta múltiples petabytes (miles de terabytes).
  • ¿Cuál es un tamaño de datos típico con el que tengo que lidiar? A veces, GB, a veces solo unos pocos MB, a veces hasta 1 TB. A veces la complejidad no es nada. Los datos pueden representar lo mismo. A veces la complejidad puede ser muy alta. Podría tener un archivo gigante lleno de muchos datos y registros que pueden ser estructurados o no.
  • Piense, por ejemplo, en Macy’s. Hay miles de tiendas que venden miles de artículos por día a millones de clientes. Si Macy’s quiere llegar a una conclusión, ¿deberían diversificarse en zapatos, o deberían diversificarse en carteras de mujer? ¿Cómo tomarían esta decisión?
  • Bueno, entonces, una pregunta natural es: ¿Cómo medimos el valor de los grandes datos?
  • Medición de datos La medición de volúmenes de datos provoca una serie de preguntas metodológicas. Primero, ¿cómo podemos distinguir los datos de la información y de la percepción? Las definiciones comunes describen los datos como indicadores brutos, la información como la interpretación significativa de esas señales y la percepción como un conocimiento procesable.
  • Por ejemplo: en este cuadro, alguien ha trazado el costo por estudiante para varias regiones. Hace que algunos de ellos se destaquen.

Hablemos ahora del análisis: esta es una gran parte de ser un científico de datos.

  • TÉCNICAS PARA ANALIZAR GRANDES DATOS
  • Existen muchas técnicas que se basan en disciplinas como las estadísticas y la informática (en particular, el aprendizaje automático) que se pueden utilizar para analizar conjuntos de datos. Esta lista no es de ninguna manera exhaustiva. De hecho, los investigadores continúan desarrollando nuevas técnicas y mejorando las existentes, particularmente en respuesta a la necesidad de analizar nuevas combinaciones de datos.
  • Además, tenga en cuenta que no todas estas técnicas requieren estrictamente el uso de grandes datos, algunas de ellas se pueden aplicar de manera efectiva a conjuntos de datos más pequeños (por ejemplo, pruebas A / B, análisis de regresión). Sin embargo, todas las técnicas enumeradas aquí se pueden aplicar a big data y, en general, se pueden usar conjuntos de datos más grandes y más diversos para generar resultados más numerosos y perspicaces que los más pequeños y menos diversos.
  • Pruebas A / B. Una técnica en la que se compara un grupo de control con una variedad de grupos de prueba para determinar qué tratamientos (es decir, cambios) mejorarán una variable objetivo dada, por ejemplo, la tasa de respuesta de marketing. Esta técnica también se conoce como prueba dividida o prueba de cubeta. Un ejemplo de aplicación es determinar qué texto de copia, diseños, imágenes o colores mejorarán las tasas de conversión en un sitio web de comercio electrónico. Big data permite ejecutar y analizar un gran número de pruebas, asegurando que los grupos tengan el tamaño suficiente para detectar diferencias significativas (es decir, estadísticamente significativas) entre el control 28 y los grupos de tratamiento (ver estadísticas). Cuando más de una variable se manipula simultáneamente en el tratamiento, la generalización multivariada de esta técnica, que aplica el modelado estadístico, a menudo se denomina prueba “A / B / N”. ¿Cómo sería un ejemplo?
  • Imagine que Coca-Cola se registra con Facebook para trabajar en marketing y ventas. Facebook pondría anuncios según los clientes. Puede crear versiones de anuncios. No todas las versiones se adaptarán a cada geografía. Algunos se adaptarán a Estados Unidos, otros se adaptarán a India. Algunos pueden adaptarse a los indios que viven en Estados Unidos. Lo que Facebook puede hacer es elegir un subconjunto de personas de un grupo masivo y pasarles anuncios en su feed de acuerdo a si esas personas aman la comida o no. Para cada anuncio, Facebook recopilará las respuestas y, en consecuencia, determinará qué anuncio funciona mejor, y en un grupo más grande de personas utilizará uno mejor. ¿La ciencia de datos permite que alguien determine mejor cuál debería ser la respuesta? ¡Absolutamente!
  • Asociación de aprendizaje de reglas. Un conjunto de técnicas para descubrir relaciones interesantes, es decir, “reglas de asociación”, entre variables en grandes bases de datos. Estas técnicas consisten en una variedad de algoritmos para generar y probar posibles reglas. Una aplicación es el análisis de la canasta de mercado, en el que un minorista puede determinar qué productos se compran juntos con frecuencia y utilizar esta información para la comercialización (un ejemplo comúnmente citado es el descubrimiento de que muchos compradores de supermercados que compran pañales también tienden a comprar cerveza).
  • Clasificación. Un conjunto de técnicas para identificar las categorías a las que pertenecen los nuevos puntos de datos, basado en un conjunto de entrenamiento que contiene puntos de datos que ya se han categorizado. Una aplicación es la predicción del comportamiento del cliente específico del segmento (por ejemplo, decisiones de compra, tasa de abandono, tasa de consumo) donde hay una hipótesis clara o un resultado objetivo. Estas técnicas a menudo se describen como aprendizaje supervisado debido a la existencia de un conjunto de entrenamiento; contrastan con el análisis de conglomerados, un tipo de aprendizaje no supervisado.
  • Análisis de conglomerados. Un método estadístico para clasificar objetos que divide un grupo diverso en grupos más pequeños de objetos similares, cuyas características de similitud no se conocen de antemano. Un ejemplo de análisis de conglomerados es segmentar a los consumidores en grupos auto-similares para marketing dirigido. Este es un tipo de aprendizaje no supervisado porque no se utilizan datos de capacitación. Esta técnica contrasta con la clasificación, un tipo de aprendizaje supervisado.
  • Crowdsourcing Una técnica para recopilar datos enviados por un gran grupo de personas o comunidad (es decir, la “multitud”) a través de una convocatoria abierta, generalmente a través de medios en red como la Web.28 Este es un tipo de colaboración masiva y una instancia de uso de la Web 2.0.29 Fusión e integración de datos.
  • Un conjunto de técnicas que integran y analizan datos de múltiples fuentes con el fin de desarrollar ideas de maneras más eficientes y potencialmente más precisas que si se desarrollaran analizando una sola fuente de datos.
  • Minería de datos. Un conjunto de técnicas para extraer patrones de grandes conjuntos de datos combinando métodos de estadísticas y aprendizaje automático con gestión de bases de datos. Estas técnicas incluyen aprendizaje de reglas de asociación, análisis de conglomerados, clasificación y regresión. Las aplicaciones incluyen la extracción de datos de clientes para determinar los segmentos con mayor probabilidad de responder a una oferta, la extracción de datos de recursos humanos para identificar las características de los empleados más exitosos o el análisis de la cesta de la compra para modelar el comportamiento de compra de los clientes.
  • Ensemble learning. Usar múltiples modelos predictivos (cada uno desarrollado utilizando estadísticas y / o aprendizaje automático) para obtener un mejor rendimiento predictivo que el que se podría obtener de cualquiera de los modelos constituyentes. Este es un tipo de aprendizaje supervisado.
  • Algoritmos genéticos. Una técnica utilizada para la optimización que se inspira en el proceso de evolución natural o “supervivencia del más apto”. En esta técnica, las posibles soluciones se codifican como “cromosomas” que pueden combinarse y mutar. Estos cromosomas individuales se seleccionan para sobrevivir dentro de un “entorno” modelado que determina la aptitud o el rendimiento de cada individuo en la población. A menudo descritos como un tipo de “algoritmo evolutivo”, estos algoritmos son muy adecuados para resolver problemas no lineales. Ejemplos de aplicaciones incluyen mejorar la programación de trabajos en la fabricación y optimizar el rendimiento de una cartera de inversiones.
  • Aprendizaje automático. Una subespecialidad de la informática (dentro de un campo históricamente llamado “inteligencia artificial”) que se ocupa del diseño y desarrollo de algoritmos que permiten a las computadoras desarrollar comportamientos basados ​​en datos empíricos. Un enfoque principal de la investigación del aprendizaje automático es aprender automáticamente a reconocer patrones complejos y tomar decisiones inteligentes basadas en datos. El procesamiento del lenguaje natural es un ejemplo de aprendizaje automático.
  • Procesamiento del lenguaje natural (PNL). Un conjunto de técnicas de una subespecialidad de informática (dentro de un campo históricamente llamado “inteligencia artificial”) y lingüística que utiliza algoritmos informáticos para analizar el lenguaje humano (natural). Muchas técnicas de PNL son tipos de aprendizaje automático. Una aplicación de PNL está utilizando el análisis de sentimientos en las redes sociales para determinar cómo los posibles clientes están reaccionando a una campaña de marca. Los datos de las redes sociales, analizados por el procesamiento del lenguaje natural, se pueden combinar con datos de ventas en tiempo real, para determinar qué efecto tiene una campaña de marketing en el sentimiento del cliente y el comportamiento de compra.
  • Redes neuronales. Modelos computacionales, inspirados en la estructura y el funcionamiento de las redes neuronales biológicas (es decir, las células y las conexiones dentro de un cerebro), que encuentran patrones en los datos. Las redes neuronales son adecuadas para encontrar patrones no lineales. Se pueden usar para el reconocimiento y la optimización de patrones. Algunas aplicaciones de redes neuronales implican aprendizaje supervisado y otras implican aprendizaje no supervisado. Los ejemplos de aplicaciones incluyen la identificación de clientes de alto valor que corren el riesgo de abandonar una empresa en particular y la identificación de reclamos de seguro fraudulentos.
  • Análisis de red. Un conjunto de técnicas utilizadas para caracterizar las relaciones entre nodos discretos en un gráfico o una red. En el análisis de redes sociales, se analizan las conexiones entre individuos en una comunidad u organización, por ejemplo, cómo viaja la información o quién tiene más influencia sobre quién. Los ejemplos de aplicaciones incluyen la identificación de líderes de opinión clave a los que dirigirse para el marketing e identificar cuellos de botella en los flujos de información empresarial.
  • Mejoramiento. Una cartera de técnicas numéricas utilizadas para rediseñar sistemas y procesos complejos para mejorar su rendimiento de acuerdo con una o más medidas objetivas (por ejemplo, costo, velocidad o confiabilidad). Los ejemplos de aplicaciones incluyen la mejora de los procesos operativos, como la programación, el enrutamiento y el diseño del piso, y la toma de decisiones estratégicas, como la estrategia de la gama de productos, el análisis de inversiones vinculadas y la estrategia de cartera de I + D. Los algoritmos genéticos son un ejemplo de una técnica de optimización. Del mismo modo, la programación de enteros mixtos es otra forma.
  • Reconocimiento de patrones. Un conjunto de técnicas de aprendizaje automático que asignan algún tipo de valor de salida (o etiqueta) a un valor de entrada (o instancia) dado de acuerdo con un algoritmo específico. Las técnicas de clasificación son un ejemplo.
  • Modelado predictivo. Un conjunto de técnicas en las que se crea o elige un modelo matemático para predecir mejor la probabilidad de un resultado. Un ejemplo de una aplicación en la gestión de la relación con el cliente es el uso de modelos predictivos para estimar la probabilidad de que un cliente “abandone” (es decir, cambie de proveedor) o la probabilidad de que un cliente pueda vender de forma cruzada otro producto. La regresión es un ejemplo de las muchas técnicas de modelado predictivo.
  • Regresión. Un conjunto de técnicas estadísticas para determinar cómo cambia el valor de la variable dependiente cuando se modifica una o más variables independientes. A menudo se usa para pronósticos o predicciones. Los ejemplos de aplicaciones incluyen pronosticar volúmenes de ventas basados ​​en diversas variables económicas y de mercado o determinar qué parámetros de fabricación medibles influyen más en la satisfacción del cliente. Utilizado para la minería de datos.
  • Análisis de los sentimientos. Aplicación del procesamiento del lenguaje natural y otras técnicas analíticas para identificar y extraer información subjetiva del material de texto fuente. Los aspectos clave de estos análisis incluyen identificar la característica, el aspecto o el producto sobre el que se expresa un sentimiento y determinar el tipo, la “polaridad” (es decir, positivo, negativo o neutral) y el grado y la fuerza del sentimiento. Los ejemplos de aplicaciones incluyen empresas que aplican análisis de sentimientos para analizar las redes sociales (por ejemplo, blogs, microblogs y redes sociales) para determinar cómo los diferentes segmentos de clientes y partes interesadas están reaccionando a sus productos y acciones.
  • Procesamiento de la señal. Un conjunto de técnicas de ingeniería eléctrica y matemática aplicada desarrolladas originalmente para analizar señales discretas y continuas, es decir, representaciones de cantidades físicas analógicas (incluso si se representan digitalmente) como señales de radio, sonidos e imágenes. Esta categoría incluye técnicas de la teoría de detección de señal, que cuantifica la capacidad de discernir entre señal y ruido. Las aplicaciones de muestra incluyen modelado para análisis de series de tiempo o implementación de fusión de datos para determinar una lectura más precisa combinando datos de un conjunto de fuentes de datos menos precisas (es decir, extrayendo la señal del ruido). Las técnicas de procesamiento de señales se pueden usar para implementar algunos tipos de fusión de datos. Un ejemplo de una aplicación son los datos del sensor de Internet de las Cosas que se combinan para desarrollar una perspectiva integrada sobre el rendimiento de un sistema distribuido complejo, como una refinería de petróleo.
  • Análisis espacial. Conjunto de técnicas, algunas aplicadas a partir de estadísticas, que analizan las propiedades topológicas, geométricas o geográficas codificadas en un conjunto de datos. A menudo, los datos para el análisis espacial provienen de sistemas de información geográfica (SIG) que capturan datos que incluyen información de ubicación, por ejemplo, direcciones o coordenadas de latitud / longitud. Ejemplos de aplicaciones incluyen la incorporación de datos espaciales en regresiones espaciales (p. Ej., ¿Cómo se correlaciona la disposición del consumidor a comprar un producto con la ubicación?) O simulaciones (p. Ej., ¿Cómo funcionaría una red de cadena de suministro de fabricación con sitios en diferentes ubicaciones?).
  • Estadística. La ciencia de la recopilación, organización e interpretación de datos, incluido el diseño de encuestas y experimentos. Las técnicas estadísticas a menudo se usan para hacer juicios sobre qué relaciones entre variables podrían haber ocurrido por casualidad (la “hipótesis nula”), y qué relaciones entre variables probablemente resultan de algún tipo de relación causal subyacente (es decir, que son “estadísticamente significativas”) . Las técnicas estadísticas también se utilizan para reducir la probabilidad de errores de Tipo I (“falsos positivos”) y errores de Tipo II (“falsos negativos”). Un ejemplo de una aplicación es la prueba A / B para determinar qué tipos de material de marketing aumentarán más los ingresos.
  • Aprendizaje supervisado. El conjunto de técnicas de aprendizaje automático que infieren una función o relación a partir de un conjunto de datos de entrenamiento. Los ejemplos incluyen máquinas de clasificación y vectores de soporte.30 Esto es diferente del aprendizaje no supervisado.
  • Simulación. Modelando el comportamiento de sistemas complejos, a menudo utilizados para pronosticar, predecir y planificar escenarios. Las simulaciones de Monte Carlo, por ejemplo, son una clase de algoritmos que se basan en muestreo aleatorio repetido, es decir, ejecutan miles de simulaciones, cada una basada en supuestos diferentes. El resultado es un histograma que proporciona una distribución de probabilidad de resultados. Una aplicación está evaluando la probabilidad de cumplir con los objetivos financieros debido a las incertidumbres sobre el éxito de varias iniciativas.
  • Análisis de series temporales. Conjunto de técnicas de estadísticas y procesamiento de señales para analizar secuencias de puntos de datos, que representan valores en momentos sucesivos, para extraer características significativas de los datos. Los ejemplos de análisis de series temporales incluyen el valor horario de un índice bursátil o el número de pacientes diagnosticados con una afección determinada todos los días.
  • Predicción de series de tiempo. El pronóstico de series de tiempo es el uso de un modelo para predecir valores futuros de una serie de tiempo basada en valores pasados ​​conocidos de la misma u otra serie. Algunas de estas técnicas, por ejemplo, el modelado estructural, descomponen una serie en componentes de tendencia, estacionales y residuales, que pueden ser útiles para identificar patrones cíclicos en los datos. Ejemplos de aplicaciones incluyen pronosticar cifras de ventas o predecir el número de personas que serán diagnosticadas con una enfermedad infecciosa.
  • Aprendizaje sin supervisión. Un conjunto de técnicas de aprendizaje automático que encuentra estructura oculta en datos sin etiquetar. El análisis de conglomerados es un ejemplo de aprendizaje no supervisado (en contraste con el aprendizaje supervisado).
  • Visualización. Técnicas utilizadas para crear imágenes, diagramas o animaciones para comunicar, comprender y mejorar los resultados de los análisis de big data. Esto se expande en la creación de paneles, en plataformas web o de escritorio.


Espero que esta redacción algo elaborada te sirva de inspiración. ¡Sigue siendo bendecido e inspirate!

El siguiente gráfico resume muy bien lo que implica la ciencia de datos.

(de la ciencia de datos)
Enfóquese aquí en tres burbujas: método científico , matemática y estadística . Estos son aspectos de la ciencia de datos más cercanos al aprendizaje automático .

Si tuviera que resumir el aprendizaje automático en una oración, diría que es una colección de algoritmos y técnicas utilizadas para diseñar sistemas que aprenden de los datos . Pero los algoritmos de ML son muy generales en el sentido de que generalmente tienen una sólida base matemática y estadística que no tiene en cuenta el conocimiento del dominio y el procesamiento previo de datos. Esa es la diferencia clave.

Si habla con un científico de datos, le dirán cómo, después de adquirir los datos y limpiarlos ( limpieza de datos) , transformarlos en una forma útil y luego, utilizando el conocimiento del dominio, decidir qué método estadístico o algoritmo ML podrá resolver mejor el problema. problema que están abordando. El proceso anterior puede requerir cierta cantidad de habilidades de ‘pirateo’ para asegurar el proceso de tener datos significativos sobre los cuales se puede llevar a cabo el procesamiento. Pero el trabajo de un científico de datos no termina ahí. La visualización se está convirtiendo en un aspecto muy importante. Representar datos en una forma que los simples mortales pueden entender y obtener información valiosa es tanto una ciencia como un arte.

Por lo tanto, un científico de datos necesita saber cómo decidir primero qué método de aprendizaje automático lo ayudará mejor y cómo aplicarlo. No necesariamente necesita saber cómo funciona ese método. Aunque sabiendo que siempre es un activo.

Hay un poco sobre la diferencia entre ML y minería de datos en Machine Learning:

Estos dos términos se confunden comúnmente, ya que a menudo emplean los mismos métodos y se superponen significativamente. Se pueden definir aproximadamente de la siguiente manera:

  • El aprendizaje automático se centra en la predicción, basada en propiedades conocidas aprendidas de los datos de entrenamiento.
  • La minería de datos (que es el paso de análisis de Knowledge Discovery en bases de datos) se centra en el descubrimiento de propiedades (previamente) desconocidas en los datos.

Hola,

El aprendizaje automático, la ciencia de datos, el análisis de datos y el aprendizaje profundo se han convertido en parte integral de muchas empresas. Pero, los términos a menudo se usan indistintamente. Aquí se explica cómo distinguirlos.

Aprendizaje automático (ML)

El aprendizaje automático es un subcampo de la IA. El principio central aquí es que las máquinas toman datos y “aprenden” por sí mismos. Actualmente es la herramienta más prometedora en el kit de IA para empresas. Los sistemas ML pueden aplicar rápidamente el conocimiento y la capacitación de grandes conjuntos de datos para sobresalir en reconocimiento facial, reconocimiento de voz, reconocimiento de objetos, traducción y muchas otras tareas. A diferencia de la codificación manual de un programa de software con instrucciones específicas para completar una tarea, ML permite que un sistema aprenda a reconocer patrones por sí mismo y a hacer predicciones.

Aprendizaje profundo

El aprendizaje profundo es un subconjunto de ML. Utiliza algunas técnicas de ML para resolver problemas del mundo real aprovechando las redes neuronales que simulan la toma de decisiones humanas. El aprendizaje profundo puede ser costoso y requiere conjuntos de datos masivos para entrenarse. Esto se debe a que hay un gran número de parámetros que deben ser entendidos por un algoritmo de aprendizaje, que inicialmente puede producir muchos falsos positivos. Por ejemplo, un algoritmo de aprendizaje profundo podría recibir instrucciones de “aprender” cómo se ve un gato. Se necesitaría un conjunto de imágenes de datos muy masivo para comprender los detalles muy pequeños que distinguen a un gato de, por ejemplo, un guepardo, una pantera o un zorro.

La diferencia entre ciencia de datos y análisis de datos

Ciencia de datos y análisis de datos: las personas que trabajan en el campo de la tecnología u otras industrias relacionadas probablemente escuchan estos términos todo el tiempo, a menudo de manera intercambiable. Sin embargo, aunque pueden parecer similares, los términos son a menudo bastante diferentes y tienen implicaciones diferentes para los negocios. Saber cómo usar los términos correctamente puede tener un gran impacto en la forma en que se administra una empresa, especialmente a medida que la cantidad de datos disponibles crece y se convierte en una parte importante de nuestra vida cotidiana.

Ciencia de los datos

Al igual que la ciencia es un término amplio que incluye una serie de especialidades y énfasis, la ciencia de datos es un término amplio para una variedad de modelos y métodos para obtener información. Bajo el paraguas de la ciencia de datos se encuentra el método científico, las matemáticas, las estadísticas y otras herramientas que se utilizan para analizar y manipular datos.

Análisis de datos

Si la ciencia de datos es la casa que posee las herramientas y los métodos, el análisis de datos es una sala específica en esa casa. Está relacionado y es similar a la ciencia de datos, pero más específico y concentrado. El análisis de datos generalmente está más enfocado que la ciencia de datos porque, en lugar de solo buscar conexiones entre datos, los analistas de datos tienen un objetivo específico en tener en cuenta que están clasificando los datos para buscar formas de soporte. El análisis de datos a menudo se automatiza para proporcionar información en ciertas áreas.

Por qué es importante

Las diferencias aparentemente matizadas entre la ciencia de datos y el análisis de datos pueden tener un gran impacto en una empresa. Para comenzar, los científicos de datos y los analistas de datos realizan tareas diferentes y, a menudo, tienen antecedentes diferentes, por lo que poder usar los términos correctamente ayuda a las empresas a contratar a las personas adecuadas para las tareas que tienen en mente.

La analítica es el resultado del análisis y la forma de presentación de esos resultados. El análisis es el método o métodos que se pueden usar para analizar datos y el proceso de análisis. La minería de datos es una técnica estadística específica que los estadísticos tradicionales llaman pesca (y menosprecian). La minería de datos le permite buscar a través de enormes cantidades de datos sin tener idea de lo que está buscando. Identifica las correlaciones simplemente a través del análisis de la fuerza bruta y las técnicas de redes neuronales (aprendizaje).

¿Ciencia de los datos? Supongo que es solo la ciencia involucrada en todo lo que tenga que ver con todo lo anterior, junto con la adición de otros temas, como la estructura de datos, el tratamiento de muchas formas diferentes de datos, etc.

Si quieres construir tu conjunto de habilidades, aprendería cosas en todas las categorías. Aprendería cómo administrar conjuntos de datos y cómo manipularlos. Calcular nuevas variables, fusionar conjuntos de datos, recodificar datos y habilidades similares siempre es útil para los demás.

Aprendería sobre bases de datos de archivos planos y bases de datos jerárquicas y bases de datos relacionales y cómo construir software o programas que las administren a todas.

Pasaría mucho tiempo aprendiendo todo tipo de técnicas estadísticas: OLS, HLM, SEM, técnicas de estimación de datos faltantes, análisis de facetas, análisis de redes sociales, técnicas de análisis longitudinal y así sucesivamente, tanto como pueda. Adquiriría experiencia con SPSS, Stata, SAS y R, solo para que pueda usar cualquier herramienta que necesite cuando la necesite.

Aprendería técnicas de análisis de datos cualitativos. Aprendería Atlas.ti o NVivo, y realizaría algunos estudios cualitativos. Haría una disertación sobre técnicas metodológicas y la relación entre métodos cualitativos y cuantitativos.

Luego colgaba mi teja.

Los científicos de datos, analistas de datos, minería de datos, minería de datos, aprendizaje automático juegan un papel crucial en la ciencia de datos. Puedo enumerar algunas de las diferencias que conozco podrían ayudarlo a comprender mejor estos conceptos

Científicos de datos:

  • Los científicos de datos deben estar familiarizados con los sistemas de bases de datos. Ejemplo: Hive, MySQL, etc.
  • Es mejor también estar familiarizado con los desarrollos laborales de Java, Python, MapReduce.
  • Debe tener una comprensión clara de varias funciones analíticas: mediana, rango, etc. y cómo usarlas en conjuntos de datos.
  • Perfección en matemáticas, estadísticas, correlación, minería de datos y análisis predictivo para ayudar a hacer mejores predicciones para las decisiones comerciales.
  • Saber R es como tener una pluma en la gorra de Data Scientist
  • Conocimientos estadísticos profundos y aprendizaje automático: Mahout, Bayesian, Clustering, etc.

Analistas de datos:

  • Los analistas de datos deben estar familiarizados con el almacenamiento de datos y los conceptos de inteligencia empresarial.
  • Exposición en profundidad de SQL y análisis.
  • Fuerte comprensión de los análisis basados ​​en Hadoop (trabajos de HBase, Hive, MapReduce, Impada, Casscading, etc.)
  • Almacenamiento de datos y recuperación de habilidades y herramientas.
  • Perfecto con las herramientas y componentes de la arquitectura de datos.
  • Familiarizado con varias herramientas ETL, para transformar diferentes fuentes de datos en fuentes de datos analíticos.

Aprendizaje automático:

  • Aprendizaje automático: es la ciencia de crear algoritmos y programas que aprenden por sí mismos. Una vez diseñados, no necesitan un humano para mejorar. Algunas de las aplicaciones comunes del aprendizaje automático incluyen: búsqueda en la web, filtros de correo no deseado, sistemas de recomendación, colocación de anuncios, calificación crediticia, detección de fraude, comercio de acciones, visión por computadora y diseño de medicamentos. Una manera fácil de entender es esto: es humanamente imposible crear modelos para cada búsqueda o spam posible, por lo que hace que la máquina sea lo suficientemente inteligente como para aprender por sí misma. Cuando automatiza la parte posterior de la minería de datos, se conoce como aprendizaje automático.

Big Data:

  • Big data es un término que describe el gran volumen de datos, tanto estructurados como no estructurados, que inundan una empresa en el día a día. Los grandes datos se pueden analizar para obtener información que conduzca a mejores decisiones y movimientos estratégicos de negocios.
  • La importancia de los grandes datos no gira en torno a la cantidad de datos que tiene, sino a lo que hace con ellos. Puede tomar datos de cualquier fuente y analizarlos para encontrar respuestas que permitan 1) reducciones de costos, 2) reducciones de tiempo, 3) desarrollo de nuevos productos y ofertas optimizadas, y 4) toma de decisiones inteligente.
  • Cuando combina big data con análisis de alta potencia, puede realizar tareas relacionadas con el negocio, tales como:
  1. Determinar las causas raíz de fallas, problemas y defectos en tiempo casi real.
  2. Generación de cupones en el punto de venta en función de los hábitos de compra del cliente.
  3. Recalculando carteras de riesgo enteras en minutos.
  4. Detectar comportamientos fraudulentos antes de que afecten a su organización.

Minería de datos:

  • En la minería de datos, las reglas de asociación se crean analizando los datos para los patrones frecuentes de si / luego, luego utilizando los criterios de soporte y confianza para ubicar las relaciones más importantes dentro de los datos. El soporte es la frecuencia con la que aparecen los elementos en la base de datos, mientras que la confianza es la cantidad de veces que las afirmaciones son precisas.

En la escuela de ciencias de datos GreyAtom, equiparamos la educación con la Realidad. Aprendemos y practicamos tecnologías futuras con datos REALES proporcionados por Industry Partners. Nuestro programa es desarrollado por académicos de clase mundial en colaboración con profesionales de la industria. Nuestros instructores y desarrolladores de planes de estudios se encuentran entre los mejores institutos a nivel mundial y en India, a saber, IIT, IIM, la Universidad Estatal de Nueva York en Buffalo, el Instituto Max-Planck de Informática en Alemania y muchos más.

Nuestro programa permite a un alumno aplicar técnicas de resolución de problemas y pensamiento creativo a conjuntos de datos del mundo real, ganando experiencia en toda la pila de ciencia de datos. Además, desarrollará un perfil sólido de contribuciones de código abierto que ayudarán a la comunidad más amplia de ingeniería de software a través de Github, StackOverflow y Kaggle.

Además, puede verificar los detalles del programa haciendo clic en este enlace: –

Programa in situ de GreyAtom: ciencia de datos, aprendizaje automático, Big Data

Le invitamos a compartir todas sus dudas e inseguridades prestando atención a lo que nuestro Consejero Académico hará todo lo posible para guiarlo hacia su camino profesional hacia el éxito. Programe una sesión de asesoramiento según su conveniencia en:

Calendly – GreyAtom

Con el fin de ayudar a los candidatos a perseguir sus sueños para aprender ciencia de datos, GreyAtom ahora ofrece becas de ciencia de datos a estudiantes meritorios. Obtenga más información sobre:

Beca de ciencia de datos | GreyAtom

Descargo de responsabilidad: soy cofundador de @GreyAtom y ayudar a las personas a encontrar carreras sostenibles en Data Science es mi pasión.

Data Science es la ciencia de extraer información de los datos disponibles. Realmente, en mi opinión, es la “ciencia” de hacer las preguntas correctas, construir los experimentos correctos y luego cuantificar las observaciones de una manera que explica cierto fenómeno, etc.

La minería, como su nombre lo indica, es extraer patrones (interesantes). No todos los patrones o estructuras son interesantes. El grado de interés debe ser definido y medido. Pero la idea básica es encontrar aquellas estructuras que ayuden a comprender, nuevamente, cierto fenómeno observado. O no. También puede desenterrar estructuras nunca antes vistas ni vistas.

El aprendizaje automático es el conjunto de herramientas, procesos y algoritmos para construir la función de aprendizaje. Se espera que la función generalice el aprendizaje a hechos del mundo real y proporcione inferencias, predicciones, etc. En cierto sentido, la minería podría ser el precursor del aprendizaje automático. Usted extrae un conjunto de datos dado para patrones interesantes, luego construye un modelo de aprendizaje para aprender ese patrón, y luego los encuentra (en un sentido general) en futuros agotamientos de datos de eventos del mundo real y hace algunas declaraciones que podrían usarse para tomar decisiones.

Parece que su comentario sería el equivalente a preguntar si hay una tabla que muestre la superposición entre todos los deportes que existen hoy en día.

Dada la lista que tiene, sería difícil construir un mapa con un nivel de detalle suficiente para ilustrar cómo los diversos métodos, herramientas y tecnologías son todos grupos, ya que algunos son tan diferentes como el hockey sobre hielo es para el ajedrez.

Sin embargo, con la lista que ha proporcionado, me complacería darle algunas definiciones rápidas para que pueda estar mejor preparado para buscar las aclaraciones que está buscando.

ciencia de datos: este campo se divide en varias áreas diferentes, desde la construcción de infraestructura de big data y la configuración de las diversas herramientas de servidor que se encuentran en la parte superior del hardware hasta el análisis y el desarrollo de las transformaciones correctas para obtener resultados útiles. A nivel 101, sugeriría buscar algo que separe el hardware, del software del servidor (hadoop, hbase), de las herramientas (alteryx, punto rojo, etc.) a las habilidades que necesita ser un buen científico de datos ( R, Python, Estadísticas, etc.)

análisis de datos: esto sería cualquier cosa que implique el análisis de datos, desde el desarrollo de un informe simple de Excel utilizando la experiencia de BI hasta la ciencia de datos con grandes conjuntos de datos utilizando SAS, JMP, etc.

inteligencia empresarial: me enfocaría en la diferencia entre la visualización de datos y el análisis de datos en el mundo de BI y me centraría en aprender cómo opera Microsoft Excel en el espacio de BI con herramientas como PowerPivot, así como herramientas como Tableau para tener una buena idea de el mundo de BI aparte de Data Science.

Big Data: este es su propio mundo de herramientas, tecnologías y soluciones, y generalmente está asociado con Data Science.

minería de datos: cualquier herramienta involucrada en la excavación de herramientas útiles a partir de datos, grandes o pequeños

almacenamiento de datos: la tecnología asociada con el almacenamiento de datos para permitir informes o transacciones típicamente.

Es muy probable que cada uno tenga su propio mapa del mundo, aunque no estoy seguro de que exista ninguno debajo de cada paraguas.

Usemos el tipo de datos en sí para hacer alguna comparación.

  • ¿Se ocupan de los datos agregados?
  • ¿Sus datos incluyen muestras “buenas” y “malas”?

Para realizar minería de datos o aprendizaje automático , necesita datos no agregados que contengan muestras individuales y estos deben incluir casos positivos y negativos.

Supongamos que desea detectar el fraude en el conjunto de datos financieros. Necesita registros de transacciones individuales que muestren ejemplos de transacciones legítimas y fraude. Si desea puntuar la calidad del cliente potencial, debe conservar tanto los clientes potenciales que resultaron en ventas como los que no lo hicieron. Esto se debe a que necesitamos ambos ejemplos para aprender la diferencia.

Sin embargo, en los sistemas de TI tradicionales, tendemos a almacenar datos agregados con solo resultados “buenos”, porque las personas tienden a no percibir el valor en el almacenamiento de datos “malos”: la gente dice “¿Cuál es el punto de gastar dinero en almacenar el registro de fraudulentos? transacciones o clientes potenciales que no se convirtieron en clientes?

El análisis de datos , el análisis de datos y la ciencia de datos son términos más amplios y pueden tratar con todo tipo de datos, incluido uno agregado.

Big data comienza con datos no agregados sin procesar, pero a menudo se usa para producir un resumen agregado, pero también se puede usar para la minería de datos y el aprendizaje automático.

Muchas buenas respuestas ya, sin embargo, la pregunta es tal que creo que tal vez se justifique una descripción comercial más que técnica.

Lo primero es lo primero, hacer cosas con datos, como quiera llamarlo requerirá cierta inversión; afortunadamente, el precio de entrada ha bajado y puedes hacer casi todo esto en casa con una máquina a un precio razonable y acceso en línea a una gran cantidad de recursos gratuitos o comprados. Las organizaciones comerciales se han dado cuenta de que hay un gran valor oculto en los datos y están empleando las técnicas que usted solicita para obtener ese valor. En definitiva, todo lo que produce este trabajo son ideas, cosas que de otro modo no habrías sabido. Las ideas son los elementos de información que causan un cambio en el comportamiento.

Comencemos con un ejemplo del mundo real, observando una granja que está cultivando fresas (aquí hay un trasfondo simple La vida secreta de las fresas de clase mundial de California, este invernadero de alta tecnología produce fresas de invierno y esta planta comercial de plantas de fresas)

¿Qué debería considerar un agricultor si está cultivando fresas? El agricultor seleccionará los tipos de plantas, fertilizantes, pesticidas. También mirando maquinaria, transporte, almacenamiento y mano de obra. El clima, el suministro de agua y la peste también son posibles preocupaciones. Finalmente, el agricultor también está investigando el precio de mercado, por lo que la oferta, la demanda y el momento de la cosecha (que determinarán las fechas para preparar el suelo, plantar, diluir el cultivo, nutrir y cosechar) también son preocupaciones.

Por lo tanto, el objetivo de todo el trabajo de datos es crear ideas que ayuden al agricultor a tomar una serie de decisiones que optimicen su operación de crecimiento comercial.

Pensemos en los datos disponibles para el agricultor, aquí hay un desglose simplificado:

1. Patrones climáticos históricos

2. Datos de fitomejoramiento y productividad para cada cepa

3. Especificaciones del fertilizante

4. Especificaciones de pesticidas

5. Datos de productividad del suelo

6. Datos del ciclo de plagas

7. Costo de la maquinaria, confiabilidad, fallas y datos de costos

8. Datos de suministro de agua

9. Datos históricos de la oferta y la demanda.

10. Precio de mercado al contado y datos de futuros

Ahora, para explicar las definiciones en contexto (con algunas ideas inventadas, entonces, si eres un agricultor de fresas, este podría no ser el mejor conjunto de ejemplos):

Big Data: uso de todos los datos disponibles para proporcionar nuevos conocimientos sobre un problema. Tradicionalmente, el agricultor puede haber tomado sus decisiones basándose solo en algunos de los puntos de datos disponibles, por ejemplo, seleccionando las razas de fresas que tuvieron el mayor rendimiento para su suelo y nivel freático. El enfoque de Big Data puede mostrar que el precio de mercado un poco más temprano en la temporada es mucho más alto y los patrones climáticos locales son tales que una nueva variación de raza de fresa funcionaría bien. Por lo tanto, la idea de cambiar a una nueva raza permitiría al agricultor aprovechar los precios más altos a principios de la temporada, y el costo de la mano de obra, el almacenamiento y el transporte en ese momento sería ligeramente menor. Hay otra cosa que puede escuchar en el bombo publicitario de Big Data: volumen, velocidad, variedad, veracidad, por lo que hay una gran cantidad de datos aquí, se genera una gran cantidad de datos cada minuto (por lo tanto, patrones climáticos, precios de acciones y sensores de máquinas ), y los datos pueden cambiar en cualquier momento (por ejemplo, una nueva fuente de datos de redes sociales que es un gran predictor de la demanda del consumidor),

Análisis de datos : el análisis es realmente una actividad heurística, en la que al analizar todos los datos, el analista obtiene cierta información . Mirando un solo conjunto de datos, digamos el de confiabilidad de la máquina, podría decir que ciertas máquinas son caras de comprar pero tienen menos fallas operativas generales que conducen a menos tiempo de inactividad y menores costos de mantenimiento. Hay otras máquinas más baratas que son más costosas a largo plazo. El agricultor podría no tener suficiente capital de trabajo para pagar la máquina costosa y tendrían que decidir si comprar la máquina más barata e incurrir en costos de mantenimiento adicionales y arriesgar el tiempo de inactividad o pedir prestado dinero con el pago de intereses, para pagar la máquina costosa.

Análisis de datos : el análisis consiste en aplicar un proceso mecánico o algorítmico para derivar los conocimientos, por ejemplo, a través de varios conjuntos de datos en busca de correlaciones significativas entre ellos. Al observar los datos del clima y los datos de plagas, vemos que existe una alta correlación de cierto tipo de hongo cuando el nivel de humedad alcanza un cierto punto. Las proyecciones meteorológicas futuras para los próximos meses (durante la temporada de siembra) predicen un bajo nivel de humedad y, por lo tanto, un menor riesgo de ese hongo. Para el agricultor, esto podría significar poder plantar cierto tipo de fresa, mayor rendimiento, mayor precio de mercado y no necesitar comprar un determinado fungicida.

Minería de datos : este término se usó más ampliamente a fines de los 90 y principios de los 00 cuando una empresa consolidó todos sus datos en un Almacén de datos empresariales. Todos esos datos se reunieron para descubrir tendencias, anomalías y correlaciones previamente desconocidas, como la famosa correlación ‘cerveza y pañales’ (pañales, cerveza y ciencia de datos en el comercio minorista). Volviendo a las fresas, suponiendo que nuestro agricultor fuera un gran conglomerado como Cargill, todos los datos anteriores estarían listos para su análisis en el almacén, por lo que preguntas como esta podrían responderse con relativa facilidad: ¿Cuál es el mejor momento para cosechar fresas para obtener el precio más alto del mercado? Dadas ciertas condiciones del suelo y los patrones de lluvia en un lugar, ¿cuáles son las razas de fresa de mayor rendimiento que debemos cultivar?

Ciencia de datos : una combinación de matemática, estadística, programación, el contexto del problema que se está resolviendo, formas ingeniosas de capturar datos que pueden no estar siendo capturados en este momento más la capacidad de ver las cosas ‘de manera diferente’ (como por qué UPS Trucks Don t Turn Left ) y, por supuesto, la importante y necesaria actividad de limpieza, preparación y alineación de los datos. Entonces, en la industria de la fresa, vamos a construir algunos modelos que nos dicen cuándo es el momento óptimo para vender, lo que nos da tiempo para cosechar, lo que nos da una combinación de razas para plantar en varios momentos para maximizar el rendimiento general. Es posible que nos falten datos de la demanda del consumidor, por lo que tal vez descubramos que cuando las recetas de fresas se publican en línea o en televisión, entonces la demanda aumenta, y los Tweets y los me gusta de Instagram o Facebook proporcionan un indicador de la demanda. Luego, necesitamos alinear los datos de la demanda con el precio del mercado para darnos una idea final y tal vez crear una forma de aumentar la demanda promoviendo cierta actividad en las redes sociales.

Aprendizaje automático : esta es una de las herramientas utilizadas por el científico de datos, donde se crea un modelo que describe matemáticamente un determinado proceso y sus resultados, luego el modelo proporciona recomendaciones y monitorea los resultados una vez que esas recomendaciones se implementan y usa los resultados para mejorar modelo Cuando Google proporciona un conjunto de resultados para el término de búsqueda “fresa”, las personas pueden hacer clic en las primeras 3 entradas e ignorar la cuarta, con el tiempo, esa cuarta entrada no aparecerá tan alta en los resultados porque la máquina está aprendiendo qué usuarios respondiendo a. Aplicado a la granja, cuando el sistema crea recomendaciones para qué razas de fresa plantar, y recopila los resultados en los cultivos para cada baya bajo diversas condiciones del suelo y del clima, el aprendizaje automático le permitirá construir un modelo que puede hacer un mejor conjunto de recomendaciones para la próxima temporada de crecimiento.

Estoy agregando este próximo porque parece haber algunas ideas falsas populares sobre lo que esto significa. Mi creencia es que ‘predictivo’ es muy usado en exceso y promocionado.

Análisis predictivo: crear un modelo cuantitativo que permita predecir un resultado basándose en la mayor cantidad de información histórica que se pueda recopilar. En estos datos de entrada, habrá múltiples variables a considerar, algunas de las cuales pueden ser significativas y otras menos significativas para determinar el resultado. El modelo predictivo determina qué señales en los datos se pueden usar para hacer una predicción precisa. Los modelos se vuelven útiles si hay ciertas variables que se pueden cambiar que aumentarán las posibilidades de un resultado deseado. Entonces, ¿qué podría ser útil para que nuestro agricultor de fresas quiera predecir? Volvamos al cultivador comercial de fresas que vende productos a minoristas de comestibles y fabricantes de alimentos: las ofertas de suministro son de decenas y cientos de miles de dólares y hay una gran fuerza de ventas. ¿Cómo pueden predecir si es probable que se cierre un acuerdo o no? Para empezar, podrían observar la historia de esa compañía y las cantidades y frecuencias de productos comprados a lo largo del tiempo, siendo las compras más recientes indicadores más sólidos. Luego podrían ver la historia del vendedor de vender ese producto a ese tipo de empresas. Esos son los indicadores obvios. Los menos obvios serían lo que los productores competidores también ofertan por el contrato, tal vez ciertos competidores siempre ganan porque siempre socavan. Cuántas visitas ha realizado el representante al posible cliente durante el año, cuántos correos electrónicos y llamadas telefónicas. ¿Cuántas quejas de productos ha hecho el posible cliente con respecto a la calidad del producto? ¿Todas nuestras entregas han sido la cantidad correcta, entregadas a tiempo? Todas estas variables pueden contribuir a que se cierre el siguiente acuerdo. Si hay suficientes datos históricos, podemos construir un modelo que prediga que un acuerdo se cerrará o no. Podemos usar una muestra de los datos históricos apartados para probar si el modelo funciona. Si tenemos confianza, entonces podemos usarlo para predecir el próximo acuerdo

[ Actualización 19 de junio de 2017 – recién descubierto: Farmers Business Network (FBN) Farmers Business Network es orgullosamente Farmers First SM . Creado por agricultores para agricultores, FBN es una red independiente e imparcial de agricultor a agricultor de miles de granjas estadounidenses. FBN democratiza la información de la granja al hacer que el poder de los análisis anónimos agregados esté disponible para todos los miembros de FBN . La red FBN ayuda a nivelar el campo de juego para los agricultores independientes con información imparcial, análisis de fincas que mejoran las ganancias y poder de compra en la red.]

Trataré de dar una breve introducción sobre cada uno de los términos que ha mencionado en su pregunta. Vamos a empezar..

  1. Análisis de datos: el análisis de datos a menudo se refiere a las técnicas de análisis de datos. Incluye algoritmos, procesos de métodos de minería de datos, etc. Basándose en estas técnicas, Data Scientist puede determinar qué método proporciona resultados más eficientes / rápidos con menos cálculos.
  2. Análisis de datos: suponga que tenemos PB de datos en nuestros dispositivos de almacenamiento. Pero si no analizamos tales datos, será inútil, pero si hacemos / realizamos un análisis de esos datos, podemos predecir algo que pueda ayudar a la humanidad. Podemos predecir sobre la base de datos y podemos aumentar las ventas / podemos comprender la necesidad de las personas en áreas particulares y Data Analysis puede hacer muchas más cosas.
  3. Minería de datos: ahora este es un término muy básico, cuando se trata de una gran cantidad de datos. Este es un término básico, pero importante como el infierno. Los datos pueden ser estructurados o no estructurados o semiestructurados, las técnicas de minería de datos convierten los datos en una única forma que puede recuperarse fácilmente del servidor a cualquier usuario y puede ser fácil para el análisis.
  4. Ciencia de los datos : Todos los campos / términos anteriores son hijo de la ciencia de datos. DS es el padre de todos los mencionados anteriormente. DS incluye principalmente datos + algoritmos donde, análisis predictivo / modelado, análisis estadístico, modelos de probabilidad e incluye matemáticas muy complejas en DS
  5. Aprendizaje automático: ML es uno de mis favoritos. Bueno, me observo como ML Developer. No existe una correlación entre ML y DS, pero ML puede ayudar en DS Machine Learning es totalmente diferente de Data Science. En algunos casos se produce un bloqueo entre la predicción, ya que ambos usan Data y Algorithms, pero no es similar. El aprendizaje automático es hacer que las máquinas aprendan de los datos, donde en DS estamos tomando decisiones a partir de los datos. ML incluye NLP (procesamiento de lenguaje natural, para ser un conjunto de datos de corpus más específico) donde el lenguaje comprensible para humanos se divide en fragmentos y luego, al aplicar algunos algoritmos de ML, se puede traducir al lenguaje comprensible por máquina. ML es un subcampo de Inteligencia Artificial.
  6. Big Data: como sugiere el término, Big data significa datos gigantes. Como sabemos la cantidad de videos que se cargan en Youtube todos los días, la cantidad de tweets en Twitter en un solo día, la cantidad de imágenes en Instagram, todos estos datos pueden notarse como Big data que deben manejarse, ya que tenemos una cantidad limitada de servidores de datos y también hay una gran posibilidad de que los datos se repitan. ¿Correcto ?, entonces sí, aquí está la secuencia de

    Big data → Minería de datos → Análisis de datos → Análisis de datos → Ciencia de datos

    si está pensando que no he incluido el aprendizaje automático en esa secuencia, entonces no existe tal razón / relación entre DS y ML

Creo que lo he explicado todo. ¡avíseme si me falta algún punto único! 🙂

Sugerencias / ediciones / comentarios / DM son bienvenidos.

Gracias.!

Naitik Chandak 🙂

¡Hola!

Permítanme comenzar con el análisis de datos:

Evalúa los requisitos del negocio y ve cómo se pueden utilizar las funciones y los procesos para mejorar el rendimiento y los resultados.

Se hace para identificar conjuntos de datos relevantes y usarlos para obtener información significativa para mejorar el rendimiento y la toma de decisiones.

Implica la exploración práctica de datos para descubrir múltiples micro vistas y obtener información más profunda.

Ahora pasando al análisis de datos:

Es más amplio en su alcance e implica el análisis de datos como un subcomponente.

Con el análisis de datos, las organizaciones pueden medir los resultados del negocio y hacer cambios en el negocio que pueden conducir a mejores resultados.

Se utiliza principalmente para dar ideas pasadas y futuras.

Ahora para la ciencia de datos:

Es la ciencia de extraer conocimiento o ideas de los datos en forma estructurada o no estructurada. En términos generales, todos estos campos de aprendizaje automático, análisis de datos, minería de datos, análisis de datos, etc. se incluyen en la ciencia de datos.

Minería de datos:

Es el proceso de extraer información significativa de datos sin procesar. También implica la limpieza de datos, el almacenamiento de datos, la visualización de datos, etc.

Big data:

Se refiere a bases de datos extremadamente grandes que pueden analizarse para revelar patrones o tendencias o asociaciones.

Aprendizaje automático:

Es un tipo de IA en la que brindamos a las computadoras la capacidad de aprender por sí mismas. En términos simples, los capacitamos sobre cómo reaccionar cuando se encuentran con nuevos datos.

El aprendizaje automático es un campo de CS que implica el uso de métodos estadísticos para crear programas que (a) mejoran el rendimiento con el tiempo o (b) detectan patrones en grandes cantidades de datos que los humanos probablemente no encontrarán. Como gran parte de la IA, es un intento de reemplazar la programación explícita (que con el tiempo se vuelve inflexible, costosa e ilegible en algunos problemas) con el descubrimiento automático de parámetros.

La ciencia de datos es un término de la industria para trabajos que pueden involucrar aprendizaje automático, recuperación de información y otros subcampos de informática considerados (a) difíciles porque requieren una sofisticación matemática que el 90% de los programadores no tienen, pero (b) también importante ignorar Puede ser un trabajo de aprendizaje automático. O bien, podría ser un trabajo glorificado de limpieza de datos / informes comerciales. Varía según la compañía. Sin embargo, en general, es mejor ser un científico de datos que un “ingeniero de software”. Incluso si desea ser un programador a tiempo completo (que son muchos científicos de datos), todavía tendrá más margen para trabajar en las cosas más interesantes (en la mayoría de las organizaciones que tienen el título).

La explicación caritativa de la “ciencia de datos” es que es el campo más amplio que surge alrededor del aprendizaje automático que incluye la adquisición de datos, la interacción con los sistemas existentes, incluidas las bases de datos de producción y la limpieza de datos, lo que no es un problema para la mayoría del trabajo académico, pero puede dominar tu tiempo en el mundo real. Después de todo, alguien tiene que manejar esas cosas, y generalmente esa tarea es (aunque desagradable) demasiado complicada para delegar. (Una persona lo suficientemente inteligente como para hacerlo bien no estará contenta de obtener solo ese tipo de trabajo). Por lo tanto, el experto en ML a menudo tiene que hacerlo ella misma.

La descripción menos caritativa de “científico de datos” es “programador que se pone a trabajar en los proyectos más interesantes”. En aproximadamente 3/5 de las compañías que tienen el título, significa aproximadamente eso, y por lo tanto es una especie de reacción a la mercantilización y humillación de los ingenieros de software “antiguos” (drones Scrum) en los últimos 20 años.

Hola subhan guddu

La ciencia de datos es un término amplio para una variedad de modelos y métodos para obtener información. Bajo el paraguas de la ciencia de datos se encuentra el método científico, las matemáticas, las estadísticas y otras herramientas que se utilizan para analizar y manipular datos. Si se trata de una herramienta o proceso realizado en los datos para analizarlos u obtener algún tipo de información, es probable que se trate de ciencia de datos.

Si la ciencia de datos es la casa que posee las herramientas y los métodos, el análisis de datos es una sala específica en esa casa. Está relacionado y es similar a la ciencia de datos, pero más específico y concentrado. El análisis de datos generalmente está más enfocado que la ciencia de datos porque en lugar de solo buscar conexiones entre datos, los analistas de datos tienen un objetivo específico en mente que están clasificando los datos para buscar formas de soporte. El análisis de datos a menudo se automatiza para proporcionar información en ciertas áreas. El análisis de datos a menudo mueve los datos de las percepciones al impacto al conectar tendencias y patrones con los verdaderos objetivos de la compañía y tiende a estar un poco más enfocado en el negocio y la estrategia.

El análisis de datos y el análisis de datos a menudo se tratan como términos intercambiables, pero tienen significados ligeramente diferentes. El análisis de datos es la práctica general del analista de datos que abarca el uso de herramientas y técnicas de análisis de datos para lograr los objetivos comerciales.

El análisis de datos es un término más amplio que se refiere al proceso de compilación y análisis de datos para presentar los hallazgos a la gerencia para ayudar a informar la toma de decisiones comerciales. El análisis de datos es un subcomponente del análisis de datos que implica el uso de herramientas técnicas y técnicas de análisis de datos. El análisis de datos es el proceso de examinar, transformar y organizar los datos sin procesar de una manera específica para generar información útil a partir de ellos. En esencia, el análisis de datos permite la evaluación de datos a través del razonamiento analítico y lógico para conducir a algún tipo de resultado o conclusión en algún contexto. Es un proceso multifacético que involucra una serie de pasos, enfoques y diversas técnicas. El enfoque que adopte para el análisis de datos depende en gran medida del tipo de datos disponibles para el análisis y el propósito del análisis.

Científico de datos vs. Analista de datos: ¿Cuál es la diferencia?

La minería de datos es un proceso para estructurar los datos en bruto y formular o reconocer los diversos patrones en los datos a través de los algoritmos matemáticos y computacionales, la minería de datos ayuda a generar nueva información y desbloquear las diversas ideas. Los datos se colocan primero en un almacén de datos para realizar la extracción de datos requerida para producir relaciones y patrones significativos. La minería de datos es una tarea de descubrimiento de patrones contra un conjunto de datos; por lo tanto, requiere componentes clásicos y avanzados de inteligencia artificial, distribución de patrones y estadísticas tradicionales, el punto a tener en cuenta que la extracción de datos se realiza sin ninguna hipótesis preconcebida, por lo tanto, la información que proviene de los datos no es para responder preguntas específicas de la organización.

La analítica de datos tiene sus raíces en la analítica de negocios o modelos de inteligencia de negocios, mientras que la minería de datos utiliza más técnicas científicas y matemáticas para generar patrones y tendencias. La minería de datos está básicamente cerca del aprendizaje automático.

El aprendizaje automático es una especie de inteligencia artificial que se encarga de proporcionar a las computadoras la capacidad de aprender sobre conjuntos de datos más nuevos sin ser programados a través de una fuente explícita. Se enfoca principalmente en el desarrollo de varios programas de computadora que pueden transformarse si se exponen a conjuntos de datos más nuevos. El aprendizaje automático y la minería de datos siguen el mismo proceso relativamente. Pero de ellos podría no ser lo mismo. El aprendizaje automático sigue el método de análisis de datos que se encarga de automatizar la construcción del modelo de forma analítica. Utiliza algoritmos que obtienen conocimiento de los datos de forma iterativa y en este proceso; permite a las computadoras encontrar información aparentemente oculta sin la ayuda de un programa externo. Para obtener los mejores resultados de la minería de datos, los algoritmos complejos se combinan con los procesos y herramientas adecuados.

Los científicos de datos son responsables de crear productos y aplicaciones centrados en datos que manejen los datos de una manera que los sistemas convencionales no pueden. El proceso de la ciencia de datos está mucho más enfocado en las habilidades técnicas de manejar cualquier tipo de datos. A diferencia de la minería de datos y el aprendizaje automático de datos, es responsable de evaluar el impacto de los datos en un producto u organización específicos.

La ciencia de datos se centra en la ciencia de los datos, la minería de datos se ocupa del proceso. Se trata del proceso de descubrir nuevos patrones en grandes conjuntos de datos. Puede ser aparentemente similar al aprendizaje automático, porque clasifica los algoritmos. Sin embargo, a diferencia del aprendizaje automático, los algoritmos son solo una parte de la minería de datos. En el aprendizaje automático, los algoritmos se utilizan para obtener conocimiento de los conjuntos de datos. Sin embargo, los algoritmos de minería de datos solo se combinan también como parte de un proceso. A diferencia del aprendizaje automático, no se centra completamente en algoritmos.

Diferencia de ciencia de datos, aprendizaje automático y minería de datos

¡Déjame saber si tienes alguna duda!

Esto pretende ser una descripción general:
Data Analytics es la ciencia o el proceso de analizar datos para sacar conclusiones sobre lo que está sucediendo en el proceso, evento o lo que describen los datos.
El análisis de datos es el acto de analizar los datos. Esto incluye informar sobre la actividad, el análisis descriptivo y el resumen de datos. Normalmente, el término se usa para describir la observación de datos donde las mediciones y la recopilación de datos se configuran con anticipación, sabiendo lo que se está midiendo (datos de ventas, atributos físicos, preguntas de la encuesta) y respondiendo preguntas más específicas sobre el rendimiento o los cambios en el estado de El objeto o grupo.
La minería de datos es el proceso de examinar los conjuntos de datos existentes, generalmente recopilados para otros fines, y buscar relaciones. A veces hay una expectativa general o específica de lo que se puede encontrar, a veces es una expedición de caza en busca de relaciones inesperadas. Los buenos procesos de minería de datos incluyen análisis más allá de los datos para asegurarse de que haya una conexión razonable que haga que la relación tenga sentido causal. Esto puede requerir la prueba de la relación descubierta por medios más tradicionales (encuestas, grupos de control y tratamiento, pruebas de campo, etc.).
Data Science es el estudio de los métodos de análisis de datos, formas de almacenarlos y formas de presentarlos. A menudo se utiliza para describir estudios de campo cruzado de gestión, almacenamiento y análisis de datos que combinan ciencias de la computación, estadísticas, almacenamiento de datos y cognición. Es un campo nuevo, por lo que no existe un consenso sobre exactamente lo que contiene.
[ Los científicos de datos son personas que trabajan en el diseño de nuevas técnicas para administrar e interpretar datos (científicos de datos teóricos) o personas que construyen o administran sistemas de datos y análisis y luego usan sus conocimientos técnicos y comerciales o de temas específicos para unir los conocimientos técnicos. y aspectos comerciales de una empresa o proyecto científico. (Científicos de datos aplicados). No hay un consenso absoluto sobre estas definiciones tampoco.]
Aprendizaje automático : programas / técnicas que utilizan (generalmente) procesos iterativos para mejorar la predicción de resultados con o sin intervención humana (supervisada o no supervisada). El objetivo es que el proceso mejore mucho con el tiempo de lo que hubiera sido la codificación inicial. En algún momento, esto se usa para hacer el cálculo inicial del modelo predictivo, a veces para mejorar la precisión de un modelo conocido. (esto último es mucho más fácil de explicar ya que una técnica de aprendizaje automático no supervisada pura (p. ej., una red neuronal) generalmente no le permite descubrir cómo llegó a su conclusión).
Big Data : “Cualquier dato más grande de lo que puede manejar fácilmente” (Dr. Goodnight, CEO SAS).
Por lo general, esto se refiere a grandes cantidades de datos transaccionales, como los datos producidos por sitios web, grandes organizaciones minoristas o proyectos científicos. A menudo se da a entender que esta información no está estructurada: contiene algunos números, texto, alguna actividad muy definida (ventas de caja registradora), una actividad menos definida (clics en la web, publicaciones en Facebook). Sin embargo, Big Data puede ser datos estructurados (en filas y columnas) si es lo suficientemente grande. Este es un objetivo móvil, Big Data de hace 15 años ahora cabe en una memoria USB.

Tengo entendido que no son más que dos grupos diferentes de investigadores, con mucha superposición en las herramientas que usan, pero con un conjunto diferente de filosofías. No parecen interactuar entre sí realmente (como deberían), al menos en la academia.

La minería de datos está más enraizada en el punto de vista de la base de datos del mundo, mientras que el aprendizaje automático se originó a partir de (un deseo de hacer) inteligencia artificial.

En la minería de datos, se le proporciona una tabla o secuencia de datos, y su tarea es encontrar algunas reglas y relaciones interesantes y desconocidas, como reglas predictivas, clústeres o asociaciones de la base de datos. Los algoritmos del minero de datos tienden a ser más deterministas y procesales, aunque las estadísticas a menudo se utilizan para tomar alguna decisión en el proceso. Además, se preocupan mucho por las formulaciones incrementales y en línea para lidiar con flujos de datos enormes y cada vez mayores. Algunos algoritmos clásicos que clasificaría como “minería de datos” incluyen “Apriori” (búsqueda de asociaciones), “DBSCAN” (búsqueda de grupos) o “árboles de decisión”. En particular, la tarea de aprendizaje de asociación es un ejemplo para el que la minería de datos se preocupa mucho, pero a los estudiantes de máquinas les importa menos.

En el aprendizaje automático, el objetivo final es (¿era?) Equipar a las “máquinas” con algoritmos capaces de “aprender” de los ejemplos algo necesario para tomar decisiones inteligentes como las humanas. (Es lamentable que la gente parezca olvidar este objetivo en estos días). Para la investigación, a menudo terminan representando sus datos en forma de tabla, por lo que creo que esto trae mucha similitud entre el aprendizaje automático y la minería de datos. Sin embargo, a menudo les importa mucho incorporar el conocimiento humano en el marco. Por ejemplo, a menudo “parametrizan” algunas distribuciones de datos porque hay una razón específica (dependiente de la tarea) para hacerlo (“Sé que esto es gaussiano”). Pusieron mucho énfasis en la “regularización” porque los humanos creemos en modelos más simples. Sus algoritmos son a menudo menos procesales y simplemente descriptivos en un formulario de optimización (que describe qué solución debería ser cuando se optimiza). Algunos algoritmos que yo diría que el aprendizaje automático son “SVM”, aprendizaje de refuerzo (encontrar la mejor secuencia de acciones que maximizan la “recompensa”) y modelos gráficos. En particular, el aprendizaje por refuerzo es un buen ejemplo de una tarea más parecida al aprendizaje automático pero menos a la minería de datos.

Debido a que las dos tareas más populares, la clasificación y la agrupación, son de gran interés en ambas comunidades, creo que las personas simplemente piensan que realmente son lo mismo. Sin embargo, esas comunidades aún están separadas y tienen opiniones diferentes sobre problemas algo similares.

La diferencia entre la ciencia de datos y el análisis de datos [1]

Ciencia de datos y análisis de datos: las personas que trabajan en el campo de la tecnología u otras industrias relacionadas probablemente escuchan estos términos todo el tiempo, a menudo de manera intercambiable. Sin embargo, aunque pueden parecer similares, los términos son a menudo bastante diferentes y tienen implicaciones diferentes para los negocios. Saber cómo usar los términos correctamente puede tener un gran impacto en la forma en que se administra una empresa, especialmente a medida que la cantidad de datos disponibles crece y se convierte en una parte importante de nuestra vida cotidiana.

Ciencia de los datos

Al igual que la ciencia es un término amplio que incluye una serie de especialidades y énfasis, la ciencia de datos es un término amplio para una variedad de modelos y métodos para obtener información. Bajo el paraguas de la ciencia de datos se encuentra el método científico, las matemáticas, las estadísticas y otras herramientas que se utilizan para analizar y manipular datos. Si se trata de una herramienta o un proceso realizado con los datos para analizarlos u obtener algún tipo de información, probablemente pertenezca a la ciencia de los datos.

La práctica de la ciencia de datos se reduce a conectar información y puntos de datos para encontrar conexiones que puedan ser útiles para el negocio. La ciencia de datos profundiza en el mundo de lo desconocido al tratar de encontrar nuevos patrones e ideas. En lugar de verificar una hipótesis, como lo que generalmente se hace con el análisis de datos, la ciencia de datos intenta construir conexiones y planificar para el futuro. La ciencia de datos a menudo mueve a una organización de la indagación a las ideas al proporcionar una nueva perspectiva de los datos y de cómo está todo conectado que anteriormente no se veía ni se conocía.

Análisis de datos

Si la ciencia de datos es la casa que posee las herramientas y los métodos, el análisis de datos es una sala específica en esa casa. Está relacionado y es similar a la ciencia de datos, pero más específico y concentrado. El análisis de datos generalmente está más enfocado que la ciencia de datos porque, en lugar de solo buscar conexiones entre datos, los analistas de datos tienen un objetivo específico en tener en cuenta que están clasificando los datos para buscar formas de soporte. El análisis de datos a menudo se automatiza para proporcionar información en ciertas áreas.

Notas al pie

[1] La diferencia entre ciencia de datos y análisis de datos

Gracias por A2A.

No seguiré con las definiciones típicas porque puedes encontrar miles de definiciones de Internet (incluso en las más de 100 respuestas a continuación) y si fueran suficientes para entender, no hubieras publicado esta pregunta.

Te daré un ejemplo simple. Por favor, lea esto con toda paciencia.

Apoyo hay 4 asignaturas optativas en cualquier instituto. Los estudiantes están matriculados en varias materias según su elección. Ahora, una junta de acreditación está a punto de visitar su universidad. Su profesor le proporciona algunos datos anuales de cada materia (número de estudiantes matriculados en cada materia cada año, número total de conferencias realizadas para cada materia, laboratorio asignado para cada materia, calificaciones obtenidas por los estudiantes matriculados, etc.). Se le pidió que calcule el costo de entrada al rendimiento de salida (relación entre el costo del curso y el rendimiento del alumno) en función de estos conjuntos de datos . Aquí, se le proporcionan datos estructurados y se le pide que extraiga conocimiento (patrones significativos, tendencias, asociaciones e ideas) de estos datos para un proceso de toma de decisiones (qué curso debe reemplazarse). Ahora, sea cual sea el cálculo, la interpretación que harás, es decir, Análisis de datos y el proceso de examen de datos es Análisis de datos. Este proceso completo desde la recopilación de datos hasta la integración de datos, limpieza de datos, selección de datos, preposesión, evaluación de patrones y descubrimiento de conocimiento se conoce como minería de datos y esta práctica (o estudio) se conoce como ciencia de datos . El proceso de aplicar varias operaciones estadísticas, computacionales y matemáticas en los datos para obtener información se conoce como Data Analytics . Los diversos paquetes de software que utilizó en este proceso, como R, Tableau, Analytics, etc., se conocen como herramientas de datos. El que se emplea para analizar e interpretar datos digitales complejos para ayudar a una empresa en la toma de decisiones se conoce como Data Scientist . Ahora, considere que tiene conjuntos de datos extremadamente grandes (de 20 lakh de estudiantes que estudian en todo el país) de tamaño y dimensión comparativamente más altos de lo que se dice que es Big Data . En ese caso, puede manejar la situación con herramientas simples y en un entorno centralizado. Para el procesamiento y almacenamiento de conjuntos de datos extremadamente grandes, necesita un entorno informático distribuido y ese marco (basado en Java y código abierto) se conoce comúnmente como Hadoop. Ahora, sobre la base de estos datos y resultados de análisis, se sugiere a los nuevos estudiantes sobre los cursos mientras optan. Este es un proceso de autoaprendizaje a partir de conjuntos de datos existentes y se conoce como Machine Learning.

Hice mi mejor esfuerzo para poner el concepto claro como el cristal delante de ti. Cualquiera puede corregirme si me equivoco en algún concepto en particular. Estoy feliz de ser corregido. Siempre un aprendiz 🙂

Lea también
1. La respuesta de Adarsh ​​a la mayoría de las empresas requieren una maestría o doctorado para científicos de datos o ingenieros de aprendizaje automático, pero la mayoría de los recursos están disponibles en línea. ¿Debo ir a la universidad para hacer una maestría o continuar aprendiendo en línea y buscar trabajo con mi título universitario?
2. La respuesta de Adarsh ​​a ¿Cómo perfecciono Big Data y Hadoop sin asistir a ninguna clase?
3. La respuesta de Adarsh ​​a ¿Qué tan difícil es estudiar análisis de datos?
4. La respuesta de Adarsh ​​a ¿Cuál es el propósito del análisis de datos?

Con toda la información confusa y conflictiva que existe, puede ser difícil comprender todos los términos que acompañan al mundo del análisis de datos. Aquí, desglosamos su definición y explicamos lo que significa para usted y su negocio.

Análisis de datos : Estas son las ideas y los números que obtiene de sus datos, generalmente medidos con respecto a ciertos objetivos o estándares de la industria. Si ejecuta un blog, por ejemplo, las métricas importantes serían cosas como el tráfico, el número de lecturas, el tiempo en la página, los clics y la tasa de rebote. Puede obtener esta información en la plataforma o mediante herramientas como Google Analytics, y debe usar la información para monitorear su progreso e informar futuras actividades y estrategias.

Análisis de datos : esta es la revisión y análisis real de esos análisis. Nuevamente, el objetivo aquí es tener una comprensión clara, integral y práctica de esa información y de lo que significa para su negocio. Con nuestro ejemplo de blog, puede analizar los blogs o temas más exitosos y utilizar esta información para crear contenido más específico. Si tiene este tipo de análisis, y si sabe qué hacer con él, puede construir un negocio exitoso basado en datos.

Minería de datos : la práctica de mirar a través de grandes conjuntos de datos y buscar patrones de información. El objetivo aquí es obtener una visión histórica amplia y procesable que pueda ser más precisa que mirar una pequeña porción de información actual. Volviendo al ejemplo del blog, esto significaría revisar los datos históricos del blog y ver, por ejemplo, cómo ha funcionado el blog desde que se creó el sitio.

Ciencia de datos : la combinación de cosas como programación de computadoras, estadísticas, herramientas analíticas y aprendizaje automático para extraer información procesable de big data. El objetivo con la ciencia de datos es utilizar todas las herramientas disponibles para contar la historia y descubrir qué hacer con toda la información que ingresa.

Aprendizaje automático : la idea aquí es que las máquinas están “aprendiendo” y mejorando a partir de los datos que reciben. Y cada vez que interactuamos con una máquina, cuando aceptamos / rechazamos la sugerencia de autocorrección de Google o cuando hacemos clic en las recomendaciones de productos de Amazon, la estamos enseñando y mejorando su aprendizaje automático. En muchos sentidos, este tipo de aprendizaje está en el corazón del crecimiento impulsado por los datos; Cuanto más aprendizaje automático tenga, mejor será y será más capaz de vencer a su competencia.

Big data : hoy en día, hay más información que nunca: más de 2.5 quintillones de bytes de datos creados diariamente. Big data está trabajando y lidiando con la complejidad de toda esta información.

En general, tenga en cuenta que se trata de usar y desmitificar la información que recibe todos los días. Si puede hacerlo de manera efectiva, puede empoderar a su empresa y crear un negocio que realmente esté impulsado por la información de datos.

Sesgo: Vengo de un fondo de ML.

La minería de datos se refiere a la extracción de conocimiento de grandes cantidades de “datos”. Aquí puede haber datos de varias fuentes. Por ejemplo: crujir feeds de twitter / Facebook / Google + para analizar los sentimientos de las personas en un estado de los EE. UU.

El aprendizaje automático está mejorando un algoritmo para realizar una tarea con una experiencia cada vez mayor. (Definición suelta)

Existe una superposición significativa entre los campos, pero también están separados en muchas aplicaciones.
Por ejemplo, encontrar una correlación entre las secuencias de ADN de dos / más individuos es pura extracción de datos.
La extracción de datos de clientes para predecir cuándo la línea de ayuda recibirá las llamadas máximas es una intersección del aprendizaje automático y la minería de datos.
Darle a un algoritmo de clasificación muchas imágenes de una manzana y una naranja y pedirle que se identifique entre ambas es aprendizaje automático. El algo mejorará en la clasificación a medida que sigas mostrándole más imágenes. Muy parecido a un niño.

Hay un uso ENORME de las técnicas de ML en la minería de datos. Pero ML también trata de hacer que las computadoras vean / escuchen / razonen.

Big Data Vs Data Scientist Vs Data Analytics Carreras

¿Confundido sobre qué elegir entre Data Science o Data Analytics?

Lea esto: ¿ciencia de datos o análisis de datos? Opciones de carrera explicadas mejor

Mucha gente está confundida acerca de estos términos . El siguiente artículo le explicará en detalle y aclarará su confusión sobre estos temas de Data Science & Data Analytics Professionals.

Entonces, comencemos esta discusión. Algunas compañías no diferencian entre un científico de datos y un profesional de análisis y usan estos términos indistintamente para definir a los miembros de su equipo. Por otro lado, un número significativo de empresas tienen esta diferenciación. En general, aquí están los factores que en mi opinión pueden separar los dos

Sin embargo, para tener éxito, ya sea como científico de datos o profesional de Business Analytics, las siguientes son las habilidades necesarias:

  • Amor por los números y las cosas cuantitativas.
  • Grit para seguir aprendiendo
  • Amor por la codificación y la programación.
  • Enfoque de pensamiento estructurado
  • Pasión por resolver problemas
  • Buen conocimiento de conceptos estadísticos.

Aquí están mis 10 punteros principales para garantizar un éxito duradero en cualquier campo.

  1. Aprende tanto como sea posible. Pase de 4 a 5 horas cada semana en el aprendizaje y el desarrollo y conozca lo último en la industria
  2. Desafío del status quo. Nunca suponga que lo que se está haciendo está siguiendo el enfoque más efectivo
  3. Cree que eres igual a todos los demás en la jerarquía. No tengas miedo de decir lo que piensas
  4. Concéntrese en la innovación y salga con la tierra rompiendo ideas en lugar de hacer el negocio como de costumbre.
  5. Concéntrese en desarrollar excelentes habilidades de comunicación y habilidades blandas, ya que esta es una de las mayores brechas que he visto en los profesionales de análisis
  6. No te conviertas en un pony de un solo truco. trate de obtener exposición en diferentes industrias y diferentes áreas funcionales.
  7. Participe en competiciones y eventos como Kaggle, para saber cuál es su posición frente a su grupo de compañeros.
  8. Intente escribir libros blancos y blogs sobre su experiencia en el tema.
  9. Desarrollar experiencia en el dominio ya que sin ese análisis no es efectivo.
  10. Finalmente, mantenga siempre una visibilidad clara de su fortaleza y oportunidades y de cualquier punto ciego. Busque activamente comentarios de su grupo de pares y sus superiores.

Big Data Data Science Análisis de datos Científicos de datos