¿Cuál es la diferencia entre big data, análisis, ciencia de datos, análisis de datos, minería de datos, inteligencia empresarial, econometría, estadística, aprendizaje automático (inteligencia artificial) y modelado matemático?

Al definirlos claramente, las ambigüedades entre estos términos disminuirán. En la práctica, hay una superposición en la forma en que diferentes personas ven estos términos, por lo que seguramente se utilizarán para referirse a lo incorrecto, especialmente porque áreas como la ciencia de datos y la IA todavía están siendo “definidas”, especialmente por expertos e investigadores. en el campo.

  1. Big Data: la recopilación y el procesamiento de grandes cantidades de datos (grandes volúmenes) de diversas fuentes y de diferentes tipos (gran variedad), a grandes velocidades (alta velocidad)
  2. Análisis de datos: El área amplia de negocios que se ocupa del uso de datos para construir ayudas para la toma de decisiones, que ayudan a las decisiones continuas que los gerentes de negocios toman regularmente.
  3. Ciencia de datos: el desarrollo y uso de modelos estadísticos y matemáticos, algoritmos y visualizaciones para ayudar a explicar datos de diferentes tipos, ya sean estructurados o no, utilizando estadísticas, aprendizaje automático, IA u otros enfoques. Los profesionales de la ciencia de datos en la industria a menudo usan grandes conjuntos de datos y algoritmos especializados para construir y probar sus modelos.
  4. Minería de datos: el acto de extraer información de conjuntos de datos grandes o pequeños, generalmente mediante el uso de un conjunto de consultas estructuradas. Los mineros de datos en la industria son más consumidores de algoritmos que desarrolladores de algoritmos. Generalmente trabajan con analistas de negocios para definir alcances claros para los análisis. La minería de datos a menudo se asocia con la minería de texto y el descubrimiento de patrones en el análisis de texto, pero esto puede no ser siempre el caso. Si bien la minería de datos a menudo se usa para describir el análisis de datos en bases de datos con diseños ordenados y estructurados (tablas relacionales), la ciencia de datos no depende de la disponibilidad de datos estructurados.
  5. Inteligencia empresarial: un conjunto de herramientas y enfoques que permiten a los gerentes gestionar procesos basados ​​en los datos recopilados y almacenados de los procesos en los llamados almacenes de datos. En general, paneles que utilizan una combinación de consultas, visualizaciones e informes destinados a fines comerciales específicos.
  6. Econometría: una rama de la estadística destinada específicamente al estudio de la economía mediante el entrelazado de teoría, inferencia estadística y análisis de datos de diversos tipos. Si bien utiliza principios y prácticas de estadística, la rama de estudio / investigación enfatiza específicamente en economía.
  7. Estadísticas: un campo de estudio, investigación y trabajo que abarca estadísticas descriptivas e inferenciales. La estadística descriptiva busca describir datos usando medidas de muestra, mientras que la estadística inferencial busca establecer y probar hipótesis (teorías) sobre los datos y las relaciones entre ellos. La ingeniería estadística es un área relacionada donde los modelos estadísticos se construyen a partir de datos, basados ​​en enfoques deductivos e inductivos. Los desarrollos en este sentido incluyen ANOVA y DOE. Un cisma más en el campo de las estadísticas es la diferencia de enfoques frequentista-bayesiano.
  8. Aprendizaje automático: el proceso de crear modelos estadísticos para informar la toma de decisiones complejas para una variedad de propósitos, como la predicción o los valores futuros de datos variables basados ​​en datos disponibles (regresión), clasificación de puntos de datos o agrupación de puntos de datos. ML abarca el desarrollo de modelos estadísticos para convertir conjuntos de datos complejos en representaciones más simples y aproximadas de las relaciones entre factores y respuestas, y también implica validación cruzada y optimización de hiperparámetros para comprender si los resultados son buenos y mejorar los modelos.
  9. Inteligencia artificial: un conjunto de enfoques que abarca enfoques de aprendizaje estadístico y redes neuronales, para simular el comportamiento de sistemas expertos que utilizan enfoques de aprendizaje supervisados ​​(donde los datos y los objetivos se proporcionan explícitamente) y sin supervisión (donde se descubren patrones). AI tiene más que ver con la coincidencia de patrones y el reconocimiento de patrones que ML. La IA utiliza enfoques bayesianos para el aprendizaje automático como un segway a redes neuronales complejas, como redes neuronales profundas o redes neuronales recurrentes que se utilizan para construir modelos complejos del mundo.
  10. Modelado matemático: un término general muy amplio que significa la construcción y validación de modelos basados ​​en variables (explícitas e implícitas) y que podría abarcar no solo modelos estadísticos basados ​​en enfoques de álgebra lineal sino ecuaciones diferenciales, ecuaciones diferenciales parciales, teoría de grupos y mucho más, mucho más. Los modelos pueden describir escenarios reales o imaginarios, pero generalmente están destinados a abordar y describir algunos problemas del mundo real y su comportamiento. Los modelos se ven como abstracciones del mundo real o escenarios lógicos / hipotéticos y el análisis se realiza en base a suposiciones o aproximaciones.

Otras definiciones relacionadas:

  1. Ciencia de la información: Ciencia de la información (no debe confundirse con la ciencia de datos)
  2. Teoría de la información: https://en.wikipedia.org/wiki/In…

Referencias y enlaces útiles:

  1. Ciencia de datos y estadísticas (GA Tech): http://www2.isye.gatech.edu/~jef…
  2. Modelado matemático: http://www.maths.bris.ac.uk/~mad…

Los científicos de datos, analistas de datos, minería de datos, minería de datos, aprendizaje automático, estadística y matemáticas juegan un papel crucial en la ciencia de datos. Puedo enumerar algunas de las diferencias que conozco podrían ayudarlo a comprender mejor estos conceptos

  • Big Data:
  • Big data es un término que describe el gran volumen de datos, tanto estructurados como no estructurados, que inundan una empresa en el día a día. Los grandes datos se pueden analizar para obtener información que conduzca a mejores decisiones y movimientos estratégicos de negocios.
  • La importancia de los grandes datos no gira en torno a la cantidad de datos que tiene, sino a lo que hace con ellos. Puede tomar datos de cualquier fuente y analizarlos para encontrar respuestas que permitan 1) reducciones de costos, 2) reducciones de tiempo, 3) desarrollo de nuevos productos y ofertas optimizadas, y 4) toma de decisiones inteligente.
  • Cuando combina big data con análisis de alta potencia, puede realizar tareas relacionadas con el negocio, tales como:
  1. Determinar las causas raíz de fallas, problemas y defectos en tiempo casi real.
  2. Generación de cupones en el punto de venta en función de los hábitos de compra del cliente.
  3. Recalculando carteras de riesgo enteras en minutos.
  4. Detectar comportamientos fraudulentos antes de que afecten a su organización.
  • Analistas de datos:
  1. Los analistas de datos deben estar familiarizados con el almacenamiento de datos y los conceptos de inteligencia empresarial.
  2. Exposición en profundidad de SQL y análisis.
  3. Fuerte comprensión de los análisis basados ​​en Hadoop (trabajos de HBase, Hive, MapReduce, Impada, Casscading, etc.)
  4. Almacenamiento de datos y recuperación de habilidades y herramientas.
  5. Perfecto con las herramientas y componentes de la arquitectura de datos.
  6. Familiarizado con varias herramientas ETL, para transformar diferentes fuentes de datos en fuentes de datos analíticos.
  • Científicos de datos:
  1. Los científicos de datos deben estar familiarizados con los sistemas de bases de datos. Ejemplo: Hive, MySQL, etc.
  2. Es mejor también estar familiarizado con los desarrollos laborales de Java, Python, MapReduce.
  3. Debe tener una comprensión clara de varias funciones analíticas: mediana, rango, etc. y cómo usarlas en conjuntos de datos.
  4. Perfección en matemáticas, estadísticas, correlación, minería de datos y análisis predictivo para ayudar a hacer mejores predicciones para las decisiones comerciales.
  5. Saber R es como tener una pluma en la gorra de Data Scientist
  6. Conocimientos estadísticos profundos y aprendizaje automático: Mahout, Bayesian, Clustering, etc.
  • Minería de datos:

En la minería de datos, las reglas de asociación se crean analizando los datos para los patrones frecuentes de si / luego, luego utilizando los criterios de soporte y confianza para ubicar las relaciones más importantes dentro de los datos. El soporte es la frecuencia con la que aparecen los elementos en la base de datos, mientras que la confianza es la cantidad de veces que las declaraciones son precisas.

  • Modelo matematico:

Los modelos matemáticos pueden describir escenarios reales o imaginarios, pero generalmente están destinados a abordar y describir algunos problemas del mundo real y su comportamiento. Los modelos se ven como abstracciones del mundo real o escenarios lógicos / hipotéticos y el análisis se realiza en base a suposiciones o aproximaciones.

Aprendizaje automático:

  • Aprendizaje automático: es la ciencia de crear algoritmos y programas que aprenden por sí mismos. Una vez diseñados, no necesitan un humano para mejorar. Algunas de las aplicaciones comunes del aprendizaje automático incluyen: búsqueda en la web, filtros de correo no deseado, sistemas de recomendación, colocación de anuncios, calificación crediticia, detección de fraude, comercio de acciones, visión por computadora y diseño de medicamentos. Una manera fácil de entender es esto: es humanamente imposible crear modelos para cada posible búsqueda o spam, por lo que hace que la máquina sea lo suficientemente inteligente como para aprender por sí misma. Cuando automatiza la parte posterior de la minería de datos, se conoce como aprendizaje automático.
  • Econometría
  1. Econometría es la aplicación de teorías estadísticas y matemáticas en economía con el propósito de probar hipótesis y pronosticar tendencias futuras. Toma modelos económicos, los prueba a través de ensayos estadísticos y luego compara y contrasta los resultados con ejemplos de la vida real. Por lo tanto, la econometría se puede subdividir en dos categorías principales: teórica y aplicada.
  2. La econometría utiliza una combinación de teoría económica, matemática e inferencias estadísticas para cuantificar y analizar teorías económicas aprovechando herramientas como distribuciones de frecuencia, distribuciones de probabilidad y probabilidad, inferencia estadística, análisis de regresión simple y múltiple, modelos de ecuaciones simultáneas y métodos de series de tiempo.
  3. Un ejemplo de una aplicación real de la econometría sería estudiar el efecto del ingreso. Un economista puede plantear la hipótesis de que a medida que una persona aumenta sus ingresos, sus gastos también aumentarán. La hipótesis puede ser probada y probada utilizando herramientas econométricas como distribuciones de frecuencia o análisis de regresión múltiple.
  • Inteligencia de Negocio –

Business Intelligence (BI) es un término general que incluye las aplicaciones, la infraestructura y las herramientas, y las mejores prácticas que permiten el acceso y el análisis de la información para mejorar y optimizar las decisiones y el rendimiento.

  • Estadísticas

Una rama de las matemáticas que se ocupa de la recopilación, análisis, interpretación y presentación de masas de datos numéricos. Es una recopilación de datos cuantitativos utilizados para optimizar, analizar y estructurar los conocimientos de los datos.

En la escuela de ciencias de datos GreyAtom, equiparamos la educación con la Realidad. Aprendemos y practicamos tecnologías futuras con datos REALES proporcionados por Industry Partners. Nuestro programa es desarrollado por académicos de clase mundial en colaboración con profesionales de la industria. Nuestros instructores y desarrolladores de planes de estudios se encuentran entre los mejores institutos a nivel mundial y en India, a saber, IIT, IIM, la Universidad Estatal de Nueva York en Buffalo, el Instituto Max-Planck de Informática en Alemania y muchos más.

Nuestro programa permite a un alumno aplicar técnicas de resolución de problemas y pensamiento creativo a conjuntos de datos del mundo real, ganando experiencia en toda la pila de ciencia de datos. Además, desarrollará un perfil sólido de contribuciones de código abierto que ayudarán a la comunidad más amplia de ingeniería de software a través de Github, StackOverflow y Kaggle.

Además, puede verificar los detalles del programa haciendo clic en este enlace: –

Programa in situ de GreyAtom: ciencia de datos, aprendizaje automático, Big Data

Le invitamos a compartir todas sus dudas e inseguridades prestando atención a lo que nuestro Consejero Académico hará todo lo posible para guiarlo hacia su camino profesional hacia el éxito. Programe una sesión de asesoramiento según su conveniencia en:

Calendly – GreyAtom

Con el fin de ayudar a los candidatos a perseguir sus sueños para aprender ciencia de datos, GreyAtom ahora ofrece becas de ciencia de datos a estudiantes meritorios. Obtenga más información sobre:

Beca de ciencia de datos | GreyAtom

Descargo de responsabilidad: soy cofundador de @GreyAtom y ayudar a las personas a encontrar carreras sostenibles en Data Science es mi pasión.

Estoy de acuerdo con Nigel en que Big Data es una palabra de moda, pero creo que tener y recopilar los datos correctos se ha convertido en una parte vital de los negocios. La mayoría de los términos que menciona se superponen significativamente.

Por ejemplo, Business Intelligence significa tener colecciones (a menudo grandes) de datos (también conocidos como Big Data) de varias fuentes y luego usar técnicas de minería de datos para obtener información sobre patrones, tendencias, etc. para que los gerentes puedan tomar mejores decisiones.

La ciencia de datos básicamente significa lo mismo. Es extraer conocimiento de grandes cantidades de datos, lo que significa que usted puede sacar ciertas conclusiones sobre el tema y el entorno en el que se recopilan los datos. Esto se puede hacer con varios métodos matemáticos y estadísticos, incluido el aprendizaje automático. El aprendizaje automático es una forma de inteligencia artificial y básicamente significa que una computadora puede hacer generalizaciones basadas en datos y se vuelve más precisa con el tiempo (aprende).

Por ejemplo, trabajo para una compañía llamada http://Personagraph.com que proporciona inteligencia de audiencia para los propietarios de aplicaciones, lo que significa que los propietarios de aplicaciones saben qué tipo de personas están usando sus aplicaciones. Lo hacemos procesando datos de SDK integrados a través de algoritmos de aprendizaje automático, creados por nuestro equipo de ciencia de datos. En esencia, significa que al analizar los datos de un usuario sacamos conclusiones sobre su demografía, intereses e intenciones. El propietario de la aplicación puede usar este conocimiento para tomar mejores decisiones para crear nuevas funciones y comercializar la aplicación. Por lo tanto, la inteligencia de audiencia puede verse como parte de Business Intelligence y una forma más sofisticada de análisis “normal” (que solo registra datos sin el proceso de aprendizaje automático).

La econometría se utiliza para analizar y hacer predicciones sobre fenómenos económicos como el desempleo, el crecimiento del PIB, los efectos de aumentar / reducir los impuestos, los efectos de los centros económicos (como Silicon Valley) en la economía regional, etc. No estoy seguro, pero creo que es se usa principalmente para analizar la economía a nivel macro, como por país o región económica.

Estoy de acuerdo con gran parte de la respuesta de Paulo Villegas.

La pregunta es acerca de las diferencias entre las cosas que están dentro y entre las diferentes categorías . Como dice Paulo Villegas, tiene sentido pensar en algunas de ellas como herramientas , algunas como aplicaciones , algunas como subconjuntos o superconjuntos . Así que definitivamente revise la respuesta de Paulo Villegas a ¿Cuál es la diferencia entre big data, análisis, ciencia de datos, análisis de datos, minería de datos, inteligencia empresarial, econometría, estadística, aprendizaje automático (inteligencia artificial) y modelado matemático?

Solo agregaría que para algunos de estos términos realmente sería difícil construir una definición ampliamente aceptada, particularmente para ciencia de datos y big data . Si sigue leyendo sobre estos temas y observa cómo diferentes personas usan estos términos, comenzará a pensar en algo significativo. 🙂

Además, hay muchas preguntas (muy relacionadas) sobre Quora que piden aclarar cómo se aplican estos términos a diferentes trabajos, que también pueden ser útiles:

  • ¿Cuál es la diferencia entre análisis de datos, análisis de datos, minería de datos, ciencia de datos, aprendizaje automático y Big Data?
  • ¿Cuál es la diferencia entre un científico de datos y un estadístico?
  • ¿Cuál es la diferencia entre un científico de datos y un ingeniero de aprendizaje automático?
  • ¿Cuál es la diferencia entre analista de datos y analista de negocios?
  • ¿Cuál es la diferencia entre un científico de datos y un analista de inteligencia de negocios?
  • y más…

Se usan indistintamente, ya que todas ellas implican trabajar con datos para encontrar información procesable. Pero me gusta diferenciarlos según el tipo de pregunta que hace:

  • Que :

¿Cuál es mi número de ventas para este trimestre?

¿Cuál es el beneficio para este año hasta la fecha?

¿Cuál es mi número de ventas en los últimos 6 meses?

¿Cómo fueron las ventas en el mismo trimestre del año pasado?

Todas estas preguntas se utilizan para informar sobre hechos y herramientas que lo ayudan a construir modelos de datos e informes que pueden clasificarse como herramientas de “Business Intelligence”.

  • Por qué :

¿Por qué mi número de ventas es mayor para este trimestre en comparación con el trimestre anterior?

¿Por qué estamos viendo un aumento en las ventas en los últimos 6 meses?

¿Por qué vemos una disminución en las ganancias durante los 6 meses?

¿Por qué la ganancia de este trimestre es menor en comparación con el mismo trimestre del año pasado?

Todas estas preguntas intentan descubrir por qué sucedió algo. Un analista de datos generalmente toma una puñalada al respecto. Podría usar la plataforma de Business Intelligence existente para extraer datos y / o también fusionar otros conjuntos de datos. Luego, él / ella aplica técnicas de análisis de datos en los datos para responder la pregunta del “por qué” y ayudar a los usuarios de negocios a obtener información útil.

  • Que sigue:

¿Cuál será mi pronóstico de ventas para el próximo año?

¿Cuál será nuestro beneficio el próximo año para el escenario A, B y C?

¿Qué clientes cancelarán / abandonarán el próximo trimestre?

¿Qué nuevos clientes se convertirán en clientes de alto valor?

Todas estas preguntas intentan “predecir” lo que sucederá después (en base a datos / patrones históricos). A veces, en primer lugar, no conoce las preguntas, por lo que hay mucho pensamiento proactivo y, por lo general, un “científico de datos” lo está haciendo. A veces comienza con un problema comercial de alto nivel y forma una “hipótesis” para impulsar su análisis. Todo esto puede clasificarse en “ciencia de datos”.

Ahora, como puede ver a medida que avanzamos de Qué -> Por qué -> Qué sigue, el nivel de sofisticación necesario para hacer el análisis también aumentó. Por lo tanto, necesita una combinación de personas, procesos y plataforma tecnológica en una organización para pasar de tener una madurez de Business Intelligence hasta lograr capacidades de ciencia de datos.

Aquí hay una publicación de blog relacionada que escribí sobre esto hace un tiempo: Business Analytics Continuum: – Insight Extractor – Blog

.. Y puede consultar otras cosas sobre las que escribo aquí: Insight Extractor – Blog – Blog de Paras Doshi sobre análisis, ciencia de datos e inteligencia de negocios.

Permítanme decir, para comenzar, que al hacer esta pregunta solo estamos agregando al conjunto de respuestas potencialmente correctas y, por lo tanto, agregando a la variabilidad en las definiciones que vamos a obtener.

Dicho esto, yo mismo he estado reflexionando sobre esta pregunta y me alegro de que surgiera en mi feed (junio de 2016).

Otras respuestas han dado la frase = definición de fórmula para cada término, y definieron cuáles son herramientas, estudios y enfoques, por lo que no voy a entrar en eso. En cambio, agregaré algo de pseudo-filosofía a la discusión y propondré que se me ocurra lo que creo que es una descripción suficiente para mí que de inmediato resolvió todas mis preguntas:

La ciencia se ocupa de los datos. Y a veces, según la ciencia, los datos pueden volverse muy grandes, muy pequeños, muy complejos o muy simples; puede ser largo, puede ser corto, puede ser rico, puede ser sencillo, puede ser dinámico, puede ser estático, puede crecer o estancarse, puede ser del pasado, del futuro, puede pueden ser respuestas, pueden ser preguntas, puede ser real o puede ser imaginario, pero sigue siendo igualmente información. Por lo tanto:

Cualquier persona cuya especialización e interés esté particularmente atraído hacia los procesos intensivos en datos de una ciencia, podría ser un científico de datos .

Eso significa que en finanzas, los cuantos pueden ser científicos de datos. En biología, los biólogos computacionales o genetistas también pueden ser científicos de datos (como Sebastian Raschka). En la literatura inglesa, los científicos que aplican métodos cuantitativos intensivos a su estudio pueden ser científicos de datos (como a través de la lingüística computacional). En psicología, mi campo de estudio, los científicos que aplican enfoques computacionales para modelar el comportamiento y el cerebro, también pueden ser científicos de datos (Paul King o Peter Flom, por ejemplo).

El problema es que tendemos a llamar a estas personas cosas diferentes según su procedencia, en lugar de lo que hacen. Estadístico, genetista, psicométrico, físico computacional, matemático aplicado, economista, cuantificador, analista de datos, científico de datos, lo que sea.

El científico de datos en este momento es una palabra de moda para algo que siempre ha existido, pero que solo recientemente ha sido reconocido: el científico en el núcleo del campo de uso intensivo de datos.

Si realmente lo piensa, cualquiera, con un doctorado en cualquier cosa, puede ser un científico de datos si ha trabajado con suficientes datos. Propongo que, en lugar de perder el sueño por si quieren o no ser llamados científicos de datos, todos debemos considerar que aquellos de nosotros que trabajamos en entornos de uso intensivo de datos ya lo somos.


De acuerdo, este meandro filosófico no tiene en cuenta las herramientas y los tipos de datos que utilizan las personas; un físico de partículas difícilmente va a saber de la cabeza cómo trabajar con datos de texto de un corpus de documentos forenses históricos; y un usuario de Excel de finanzas no será aplicable de inmediato en un laboratorio de neurociencia que depende de Python. Pero supongo que el punto de la ciencia de datos, lo que deberíamos estar sacando de este fenómeno, es realmente esto:

Ahora tenemos tantos datos procedentes de tantos lugares diferentes, y tanto que todos podemos hacer con ellos, que hemos desarrollado la necesidad de una comprensión unificada y universal de los métodos computacionales y estadísticos para abordar los datos, independientemente de qué campo vino de.

Ciencia de datos y análisis de datos : las personas que trabajan en el campo de la tecnología u otras industrias relacionadas probablemente escuchan estos términos todo el tiempo, a menudo de manera intercambiable. Sin embargo, aunque pueden parecer similares, los términos son a menudo bastante diferentes y tienen implicaciones diferentes para los negocios. Saber cómo usar los términos correctamente puede tener un gran impacto en la forma en que se administra una empresa, especialmente a medida que la cantidad de datos disponibles crece y se convierte en una parte importante de nuestra vida cotidiana.

Ciencia de los datos

Al igual que la ciencia es un término amplio que incluye una serie de especialidades y énfasis, la ciencia de datos es un término amplio para una variedad de modelos y métodos para obtener información. Bajo el paraguas de la ciencia de datos se encuentra el método científico, las matemáticas, las estadísticas y otras herramientas que se utilizan para analizar y manipular datos. Si se trata de una herramienta o un proceso realizado con los datos para analizarlos u obtener algún tipo de información, probablemente pertenezca a la ciencia de los datos.

La práctica de la ciencia de datos se reduce a conectar información y puntos de datos para encontrar conexiones que puedan ser útiles para el negocio. La ciencia de datos profundiza en el mundo de lo desconocido al tratar de encontrar nuevos patrones e ideas. En lugar de verificar una hipótesis, como lo que generalmente se hace con el análisis de datos, la ciencia de datos intenta construir conexiones y planificar para el futuro. La ciencia de datos a menudo mueve a una organización de la indagación a las ideas al proporcionar una nueva perspectiva de los datos y de cómo está todo conectado que anteriormente no se veía ni se conocía.

Análisis de datos

Si la ciencia de datos es la casa que posee las herramientas y los métodos, el análisis de datos es una sala específica en esa casa. Está relacionado y es similar a la ciencia de datos, pero más específico y concentrado. El análisis de datos generalmente está más enfocado que la ciencia de datos porque, en lugar de solo buscar conexiones entre datos, los analistas de datos tienen un objetivo específico en tener en cuenta que están clasificando los datos para buscar formas de soporte. El análisis de datos a menudo se automatiza para proporcionar información en ciertas áreas.

El análisis de datos implica el peinado a través de los datos para encontrar pepitas de grandeza que puedan usarse para ayudar a alcanzar los objetivos de una organización. Esencialmente, la analítica clasifica los datos en cosas que las organizaciones saben que saben o no saben y que pueden usarse para medir eventos en el pasado, presente o futuro. El análisis de datos a menudo mueve los datos de los conocimientos al impacto al conectar tendencias y patrones con los verdaderos objetivos de la empresa y tiende a estar un poco más centrado en el negocio y la estrategia.

Por qué es importante

Las diferencias aparentemente matizadas entre la ciencia de datos y el análisis de datos pueden tener un gran impacto en una empresa. Para comenzar, los científicos de datos y los analistas de datos realizan tareas diferentes y, a menudo, tienen antecedentes diferentes, por lo que poder usar los términos correctamente ayuda a las empresas a contratar a las personas adecuadas para las tareas que tienen en mente.

  • El análisis de datos , la minería de datos , el aprendizaje automático y el modelado matemático son herramientas : medios hacia un fin.
  • Analytics , Business Intelligence , Econometrics e Artificial Intelligence son áreas de aplicación : dominios que usan las herramientas anteriores (y otras) para producir resultados dentro de su tema. Entre ellos, Analytics es probablemente un término más genérico (es decir, no específico del dominio).
  • La estadística es una rama de las matemáticas que proporciona apoyo teórico y práctico a las herramientas anteriores.
  • Data Science es un término general para describir el uso de todas esas herramientas para proporcionar respuestas en todas esas áreas (y también en otras), especialmente cuando se trata de Big Data , que no es más que una etiqueta que significa hacer algo de lo anterior, pero cuando Los conjuntos de datos son enormes.

Consulte también ¿Cuál es la diferencia entre inteligencia artificial, aprendizaje automático, minería de datos e inteligencia empresarial? ¿Cómo están relacionados? para descripciones más detalladas de algunos de esos términos.

Big data: utiliza la infraestructura de hadoop para almacenar / administrar datos. Por lo general, estos datos no tienen ninguna clave (primaria)
Analítica: campo que se ocupa de analizar datos y derivar resultados comerciales.
Análisis de datos: implica analizar datos. estudiando la calidad de los datos, descubriendo valores atípicos, descubriendo el número de valores nulos en los datos, si deben eliminarse / dejarse estar en los datos, etc.
Minería de datos: después de hacer un análisis de datos y limpiar los datos, se aplican algoritmos de aprendizaje automático en esos datos limpios para ver resultados interesantes. Todo este proceso se llama minería de datos.
Inteligencia empresarial: después de hacer el análisis de datos, las técnicas Bi se aplican a los datos para ver los resultados. Las técnicas de BI (convencionales) significan utilizar técnicas como Obiee, microestrategia, etc. para ver resultados. Bi (nuevo) utiliza técnicas de hadoop y visualización de datos (d3.js, gráficos altos)
Estadísticas: utilizadas al estudiar la calidad de los datos.
Aprendizaje automático: significa algoritmos de aprendizaje automático. Utilizado en minería de datos
Modelado matemático: regresión lineal. También es algo de minería de datos.

Lo único en lo que no estaría de acuerdo, más bien, extendería, con Paulo es que el modelado matemático es un campo de las matemáticas que parece aplicar la teoría a la descripción y la comprensión de un sistema dado. Es más que un medio para un fin (eso, yo diría que es el Modelo Estadístico), es el equivalente teórico a la Minería de Datos (es decir, la exploración profunda de estructuras, extensiones, soportes y propiedades). Por supuesto, cuando aplicamos el Modelo Matemático a un problema dado, buscamos un fin, pero en ese sentido estamos delimitando parámetros y, en verdad, eligiendo un elemento del espacio de búsqueda de todos los Modelos Matemáticos.

Con la excepción de Big Data, todos son subconjuntos de matemáticas. Los nombres simplemente cambian para reflejar el dominio o como un ejercicio de marca para tratar de decir que están haciendo algo diferente cuando en un nivel fundamental en su mayoría no lo están.

Destaco big data porque, en mi humilde opinión, es solo un término de moda. Claro que recopilamos más datos ahora que antes, tanto en volumen como en variación. Claro que tenemos que pensar dónde lo ponemos, qué tan rápido podemos acceder a él y cómo analizarlo. Pero estas cosas no son nuevas solo porque tienen una palabra de moda pegadiza.

Hola amigos, soy analista de datos y entusiasta del aprendizaje automático. Me emociona presentarles mi nuevo canal de Youtube: “ ANALYTICS MANTRA ”: un destino completo para todos los tutoriales sobre análisis de datos.

  • En la actualidad, hemos cargado una serie de tutoriales sobre Excel avanzado y análisis de datos utilizando Python. Y, pronto cargaremos tutoriales en R, WEKA, TABLEAU, QLIKVIEW

Entonces, vaya al enlace y explore los tutoriales.

¡¡¡¡¡Disfruta aprendiendo!!!!!

Por favor, no olvide dar me gusta y suscribirse y nunca se pierda ninguna actualización de ” ANALYTICS MANTRA “.

Enlace: Mantra de análisis

Diferentes términos explicados en el blog a continuación:

Términos comunes de análisis de datos

Mejor,

UNA

Creo que es difícil comparar todo de una vez. En este artículo encontrará diferencias clave entre ciencia de datos y estadísticas

Lee mas

Su pregunta requiere una respuesta muy larga. Puedo ofrecerle un buen recurso. Intente encontrar la respuesta a todas sus preguntas aquí.

Panel de control de InfoCaptor