Llevaba unos días queriendo apuñalar a esta, pero siempre me pareció una tarea enorme, porque esta pregunta ha usado demasiadas palabras. Además, esta es una pregunta sobre la cual muchas personas tienen sus ojos, y muchas otras ya han escrito respuestas elaboradas.
Permítanme primero reordenar todas las palabras importantes:
- Big data
- Minería de datos
- Análisis de los datos
- Analítica
- Aprendizaje automático
- Ciencia de los datos
Imagine que desea convertirse en un científico de datos y trabajar en una gran organización como Amazon, Intel, Google, FB, Apple, etc.
- ¿Cómo se diseñan y desarrollan las nuevas arquitecturas de aprendizaje profundo?
- ¿Cuál es el mejor algoritmo para descubrir características bien correlacionadas?
- ¿Cómo se compara Scikit Learn con R (en términos de velocidad, conveniencia y potencia)?
- ¿Qué es la traducción automática estadística?
- ¿Cuáles son los últimos algoritmos y técnicas para la corrección ortográfica?
¿Cómo se vería eso?
- Tendría que lidiar con big data , tendría que escribir programas de computadora en SQL, Python, R, C ++, Java, Scala, Ruby … y así sucesivamente, para mantener solo bases de datos de big data. Serías llamado administrador de la base de datos.
- Como ingeniero que trabaja en el control de procesos, o alguien que desea racionalizar las operaciones de la empresa, realizaría Minería de datos y Análisis de datos ; Puede usar un software simple para hacer esto donde solo correría una gran cantidad de códigos escritos por otros, o podría estar escribiendo sus códigos elaborados en SQL, Python, R y estaría haciendo minería de datos, limpieza de datos, análisis de datos, modelado , modelado predictivo, etc.
- Todo esto se llamará Analytics . Existen varios programas para hacer esto. Uno popular es Tableau. Algunos otros son JMP y SAS. Mucha gente hace todo en línea donde se puede utilizar una configuración de inteligencia empresarial basada en SAP. Aquí, los informes simples se pueden hacer fácilmente.
- Además, podría utilizar el aprendizaje automático para sacar conclusiones y generar predicciones, siempre que no sea posible obtener respuestas analíticas. Piense en las respuestas analíticas como el tipo [If / then] de programas de computadora, donde todas las condiciones de entrada ya se conocen y solo cambian algunos parámetros.
- El aprendizaje automático utiliza análisis estadísticos para particionar datos. Un ejemplo sería este: lea los comentarios escritos por varias personas en Yelp y prediga a partir de los comentarios si la persona hubiera marcado un restaurante de 4 o 5 estrellas.
- Si eso no es suficiente, también podría utilizar el aprendizaje profundo. El aprendizaje profundo se utiliza para procesar datos como archivos musicales, imágenes, incluso datos de texto como lenguajes naturales, donde los datos son enormes, pero su tipo es muy diverso.
- Utilizaría todo a su favor: soluciones analíticas, particionamiento de datos, piratería mental, automatización mediante programación, informes, conclusiones, toma de decisiones, acciones y narración de sus datos.
- Por último, pero no menos importante, una parte de esto sucederá en el control de crucero, donde es posible que no esté allí físicamente, pero los programas que haya creado harían la mayoría de las cosas por sí mismos. Probablemente si lo llevas al nivel de IA, algún día puede ser más inteligente que tú, no hace falta decir que ya sería más rápido que tú. Un día puede llegar al nivel que puede sorprenderlo con las soluciones que quizás ni siquiera haya imaginado.
- Ahora eres un científico de datos, y lo que harías se llama ciencia de datos.
- Cualquier cosa que hagas puede ser vista o no por personas ajenas a tu empresa, como personas que le hacen varias preguntas a Alexa si trabajas para Amazon, o personas que hacen preguntas para aceptar Google si trabajas para Google. O puede que no vean nada de lo que haces. Sus funciones ayudarían a las empresas a diseñar mejor las cosas.
- Para hacer todo esto, es posible que necesite mucha experiencia en el manejo de datos y el conocimiento de algunos lenguajes de programación.
- Un diagrama de Venn de ciencia de datos popular que he visto en Internet está aquí: tenga en cuenta que un científico de datos está en la intersección de muchas cosas. Comunicación, estadísticas, programación y negocios.
- Lee también:
- La respuesta de Rohit Malshe a ¿Cómo aprendo el aprendizaje automático?
- La respuesta de Rohit Malshe a ¿Cómo debo comenzar a aprender Python?
- La respuesta de Rohit Malshe a ¿Qué es el aprendizaje profundo? ¿Por qué es esta una tendencia creciente en el aprendizaje automático? ¿Por qué no usar SVM?
- La respuesta de Rohit Malshe a ¿Vale la pena el dinero y el tiempo por ‘caminos curados para una carrera de ciencia de datos’ en Coursera?
Con toda seriedad, si desea una documentación elaborada sobre todo esto, sugeriría, continúe y lea este informe de McKinsey para obtener una comprensión completa. Solo extraje algunas secciones convenientemente porque solo quería agregar lo mejor del conocimiento de otra persona y reunir estos conceptos como una historia para inspirar a las personas a pensar en este tema y comenzar sus propios viajes.
Big data: la próxima frontera para la innovación, la competencia y la productividad
Contestaré algunas preguntas paso a paso, y siempre que sea posible, le daré algunas imágenes o diagramas para mostrarle cómo son las cosas.
¡Consultores de McKinsey! Eres increíble, así que si lees las cosas escritas en esta respuesta que escribiste en algún momento, te doy todo el crédito.
- ¿Qué queremos decir con “big data”?
- “Big data” se refiere a conjuntos de datos cuyo tamaño está más allá de la capacidad de las herramientas de software de bases de datos típicas para capturar, almacenar, administrar y analizar. Esta definición es intencionalmente subjetiva e incorpora una definición móvil de cuán grande debe ser un conjunto de datos para ser considerado big data, es decir, no necesitamos definir big data en términos de ser mayor que un cierto número de terabytes (miles de gigabytes) . Suponemos que, a medida que la tecnología avanza con el tiempo, el tamaño de los conjuntos de datos que califican como big data también aumentará. También tenga en cuenta que la definición puede variar según el sector, dependiendo de qué tipos de herramientas de software están comúnmente disponibles y qué tamaños de conjuntos de datos son comunes en una industria en particular. Con esas advertencias, la gran cantidad de datos en muchos sectores hoy variará desde unas pocas docenas de terabytes hasta múltiples petabytes (miles de terabytes).
- ¿Cuál es un tamaño de datos típico con el que tengo que lidiar? A veces, GB, a veces solo unos pocos MB, a veces hasta 1 TB. A veces la complejidad no es nada. Los datos pueden representar lo mismo. A veces la complejidad puede ser muy alta. Podría tener un archivo gigante lleno de muchos datos y registros que pueden ser estructurados o no.
- Piense, por ejemplo, en Macy’s. Hay miles de tiendas que venden miles de artículos por día a millones de clientes. Si Macy’s quiere llegar a una conclusión, ¿deberían diversificarse en zapatos, o deberían diversificarse en carteras de mujer? ¿Cómo tomarían esta decisión?
- Bueno, entonces, una pregunta natural es: ¿Cómo medimos el valor de los grandes datos?
- Medición de datos La medición de volúmenes de datos provoca una serie de preguntas metodológicas. Primero, ¿cómo podemos distinguir los datos de la información y de la percepción? Las definiciones comunes describen los datos como indicadores brutos, la información como la interpretación significativa de esas señales y la percepción como un conocimiento procesable.
- Por ejemplo: en este cuadro, alguien ha trazado el costo por estudiante para varias regiones. Hace que algunos de ellos se destaquen.
Hablemos ahora del análisis: esta es una gran parte de ser un científico de datos.
- TÉCNICAS PARA ANALIZAR GRANDES DATOS
- Existen muchas técnicas que se basan en disciplinas como las estadísticas y la informática (en particular, el aprendizaje automático) que se pueden utilizar para analizar conjuntos de datos. Esta lista no es de ninguna manera exhaustiva. De hecho, los investigadores continúan desarrollando nuevas técnicas y mejorando las existentes, particularmente en respuesta a la necesidad de analizar nuevas combinaciones de datos.
- Además, tenga en cuenta que no todas estas técnicas requieren estrictamente el uso de grandes datos, algunas de ellas se pueden aplicar de manera efectiva a conjuntos de datos más pequeños (por ejemplo, pruebas A / B, análisis de regresión). Sin embargo, todas las técnicas enumeradas aquí se pueden aplicar a big data y, en general, se pueden usar conjuntos de datos más grandes y más diversos para generar resultados más numerosos y perspicaces que los más pequeños y menos diversos.
- Pruebas A / B. Una técnica en la que se compara un grupo de control con una variedad de grupos de prueba para determinar qué tratamientos (es decir, cambios) mejorarán una variable objetivo dada, por ejemplo, la tasa de respuesta de marketing. Esta técnica también se conoce como prueba dividida o prueba de cubeta. Un ejemplo de aplicación es determinar qué texto de copia, diseños, imágenes o colores mejorarán las tasas de conversión en un sitio web de comercio electrónico. Big data permite ejecutar y analizar un gran número de pruebas, asegurando que los grupos tengan el tamaño suficiente para detectar diferencias significativas (es decir, estadísticamente significativas) entre el control 28 y los grupos de tratamiento (ver estadísticas). Cuando más de una variable se manipula simultáneamente en el tratamiento, la generalización multivariada de esta técnica, que aplica el modelado estadístico, a menudo se denomina prueba “A / B / N”. ¿Cómo sería un ejemplo?
- Imagine que Coca-Cola se registra con Facebook para trabajar en marketing y ventas. Facebook pondría anuncios según los clientes. Puede crear versiones de anuncios. No todas las versiones se adaptarán a cada geografía. Algunos se adaptarán a Estados Unidos, otros se adaptarán a India. Algunos pueden adaptarse a los indios que viven en Estados Unidos. Lo que Facebook puede hacer es elegir un subconjunto de personas de un grupo masivo y pasarles anuncios en su feed de acuerdo a si esas personas aman la comida o no. Para cada anuncio, Facebook recopilará las respuestas y, en consecuencia, determinará qué anuncio funciona mejor, y en un grupo más grande de personas utilizará uno mejor. ¿La ciencia de datos permite que alguien determine mejor cuál debería ser la respuesta? ¡Absolutamente!
- Asociación de aprendizaje de reglas. Un conjunto de técnicas para descubrir relaciones interesantes, es decir, “reglas de asociación”, entre variables en grandes bases de datos. Estas técnicas consisten en una variedad de algoritmos para generar y probar posibles reglas. Una aplicación es el análisis de la canasta de mercado, en el que un minorista puede determinar qué productos se compran juntos con frecuencia y utilizar esta información para la comercialización (un ejemplo comúnmente citado es el descubrimiento de que muchos compradores de supermercados que compran pañales también tienden a comprar cerveza).
- Clasificación. Un conjunto de técnicas para identificar las categorías a las que pertenecen los nuevos puntos de datos, basado en un conjunto de entrenamiento que contiene puntos de datos que ya se han categorizado. Una aplicación es la predicción del comportamiento del cliente específico del segmento (por ejemplo, decisiones de compra, tasa de abandono, tasa de consumo) donde hay una hipótesis clara o un resultado objetivo. Estas técnicas a menudo se describen como aprendizaje supervisado debido a la existencia de un conjunto de entrenamiento; contrastan con el análisis de conglomerados, un tipo de aprendizaje no supervisado.
- Análisis de conglomerados. Un método estadístico para clasificar objetos que divide un grupo diverso en grupos más pequeños de objetos similares, cuyas características de similitud no se conocen de antemano. Un ejemplo de análisis de conglomerados es segmentar a los consumidores en grupos auto-similares para marketing dirigido. Este es un tipo de aprendizaje no supervisado porque no se utilizan datos de capacitación. Esta técnica contrasta con la clasificación, un tipo de aprendizaje supervisado.
- Crowdsourcing Una técnica para recopilar datos enviados por un gran grupo de personas o comunidad (es decir, la “multitud”) a través de una convocatoria abierta, generalmente a través de medios en red como la Web.28 Este es un tipo de colaboración masiva y una instancia de uso de la Web 2.0.29 Fusión e integración de datos.
- Un conjunto de técnicas que integran y analizan datos de múltiples fuentes con el fin de desarrollar ideas de maneras más eficientes y potencialmente más precisas que si se desarrollaran analizando una sola fuente de datos.
- Minería de datos. Un conjunto de técnicas para extraer patrones de grandes conjuntos de datos combinando métodos de estadísticas y aprendizaje automático con gestión de bases de datos. Estas técnicas incluyen aprendizaje de reglas de asociación, análisis de conglomerados, clasificación y regresión. Las aplicaciones incluyen la extracción de datos de clientes para determinar los segmentos con mayor probabilidad de responder a una oferta, la extracción de datos de recursos humanos para identificar las características de los empleados más exitosos o el análisis de la cesta de la compra para modelar el comportamiento de compra de los clientes.
- Ensemble learning. Usar múltiples modelos predictivos (cada uno desarrollado utilizando estadísticas y / o aprendizaje automático) para obtener un mejor rendimiento predictivo que el que se podría obtener de cualquiera de los modelos constituyentes. Este es un tipo de aprendizaje supervisado.
- Algoritmos genéticos. Una técnica utilizada para la optimización que se inspira en el proceso de evolución natural o “supervivencia del más apto”. En esta técnica, las posibles soluciones se codifican como “cromosomas” que pueden combinarse y mutar. Estos cromosomas individuales se seleccionan para sobrevivir dentro de un “entorno” modelado que determina la aptitud o el rendimiento de cada individuo en la población. A menudo descritos como un tipo de “algoritmo evolutivo”, estos algoritmos son muy adecuados para resolver problemas no lineales. Ejemplos de aplicaciones incluyen mejorar la programación de trabajos en la fabricación y optimizar el rendimiento de una cartera de inversiones.
- Aprendizaje automático. Una subespecialidad de la informática (dentro de un campo históricamente llamado “inteligencia artificial”) que se ocupa del diseño y desarrollo de algoritmos que permiten a las computadoras desarrollar comportamientos basados en datos empíricos. Un enfoque principal de la investigación del aprendizaje automático es aprender automáticamente a reconocer patrones complejos y tomar decisiones inteligentes basadas en datos. El procesamiento del lenguaje natural es un ejemplo de aprendizaje automático.
- Procesamiento del lenguaje natural (PNL). Un conjunto de técnicas de una subespecialidad de informática (dentro de un campo históricamente llamado “inteligencia artificial”) y lingüística que utiliza algoritmos informáticos para analizar el lenguaje humano (natural). Muchas técnicas de PNL son tipos de aprendizaje automático. Una aplicación de PNL está utilizando el análisis de sentimientos en las redes sociales para determinar cómo los posibles clientes están reaccionando a una campaña de marca. Los datos de las redes sociales, analizados por el procesamiento del lenguaje natural, se pueden combinar con datos de ventas en tiempo real, para determinar qué efecto tiene una campaña de marketing en el sentimiento del cliente y el comportamiento de compra.
- Redes neuronales. Modelos computacionales, inspirados en la estructura y el funcionamiento de las redes neuronales biológicas (es decir, las células y las conexiones dentro de un cerebro), que encuentran patrones en los datos. Las redes neuronales son adecuadas para encontrar patrones no lineales. Se pueden usar para el reconocimiento y la optimización de patrones. Algunas aplicaciones de redes neuronales implican aprendizaje supervisado y otras implican aprendizaje no supervisado. Los ejemplos de aplicaciones incluyen la identificación de clientes de alto valor que corren el riesgo de abandonar una empresa en particular y la identificación de reclamos de seguro fraudulentos.
- Análisis de red. Un conjunto de técnicas utilizadas para caracterizar las relaciones entre nodos discretos en un gráfico o una red. En el análisis de redes sociales, se analizan las conexiones entre individuos en una comunidad u organización, por ejemplo, cómo viaja la información o quién tiene más influencia sobre quién. Los ejemplos de aplicaciones incluyen la identificación de líderes de opinión clave a los que dirigirse para el marketing e identificar cuellos de botella en los flujos de información empresarial.
- Mejoramiento. Una cartera de técnicas numéricas utilizadas para rediseñar sistemas y procesos complejos para mejorar su rendimiento de acuerdo con una o más medidas objetivas (por ejemplo, costo, velocidad o confiabilidad). Los ejemplos de aplicaciones incluyen la mejora de los procesos operativos, como la programación, el enrutamiento y el diseño del piso, y la toma de decisiones estratégicas, como la estrategia de la gama de productos, el análisis de inversiones vinculadas y la estrategia de cartera de I + D. Los algoritmos genéticos son un ejemplo de una técnica de optimización. Del mismo modo, la programación de enteros mixtos es otra forma.
- Reconocimiento de patrones. Un conjunto de técnicas de aprendizaje automático que asignan algún tipo de valor de salida (o etiqueta) a un valor de entrada (o instancia) dado de acuerdo con un algoritmo específico. Las técnicas de clasificación son un ejemplo.
- Modelado predictivo. Un conjunto de técnicas en las que se crea o elige un modelo matemático para predecir mejor la probabilidad de un resultado. Un ejemplo de una aplicación en la gestión de la relación con el cliente es el uso de modelos predictivos para estimar la probabilidad de que un cliente “abandone” (es decir, cambie de proveedor) o la probabilidad de que un cliente pueda vender de forma cruzada otro producto. La regresión es un ejemplo de las muchas técnicas de modelado predictivo.
- Regresión. Un conjunto de técnicas estadísticas para determinar cómo cambia el valor de la variable dependiente cuando se modifica una o más variables independientes. A menudo se usa para pronósticos o predicciones. Los ejemplos de aplicaciones incluyen pronosticar volúmenes de ventas basados en diversas variables económicas y de mercado o determinar qué parámetros de fabricación medibles influyen más en la satisfacción del cliente. Utilizado para la minería de datos.
- Análisis de los sentimientos. Aplicación del procesamiento del lenguaje natural y otras técnicas analíticas para identificar y extraer información subjetiva del material de texto fuente. Los aspectos clave de estos análisis incluyen identificar la característica, el aspecto o el producto sobre el que se expresa un sentimiento y determinar el tipo, la “polaridad” (es decir, positivo, negativo o neutral) y el grado y la fuerza del sentimiento. Los ejemplos de aplicaciones incluyen empresas que aplican análisis de sentimientos para analizar las redes sociales (por ejemplo, blogs, microblogs y redes sociales) para determinar cómo los diferentes segmentos de clientes y partes interesadas están reaccionando a sus productos y acciones.
- Procesamiento de la señal. Un conjunto de técnicas de ingeniería eléctrica y matemática aplicada desarrolladas originalmente para analizar señales discretas y continuas, es decir, representaciones de cantidades físicas analógicas (incluso si se representan digitalmente) como señales de radio, sonidos e imágenes. Esta categoría incluye técnicas de la teoría de detección de señal, que cuantifica la capacidad de discernir entre señal y ruido. Las aplicaciones de muestra incluyen modelado para análisis de series de tiempo o implementación de fusión de datos para determinar una lectura más precisa combinando datos de un conjunto de fuentes de datos menos precisas (es decir, extrayendo la señal del ruido). Las técnicas de procesamiento de señales se pueden usar para implementar algunos tipos de fusión de datos. Un ejemplo de una aplicación son los datos del sensor de Internet de las Cosas que se combinan para desarrollar una perspectiva integrada sobre el rendimiento de un sistema distribuido complejo, como una refinería de petróleo.
- Análisis espacial. Conjunto de técnicas, algunas aplicadas a partir de estadísticas, que analizan las propiedades topológicas, geométricas o geográficas codificadas en un conjunto de datos. A menudo, los datos para el análisis espacial provienen de sistemas de información geográfica (SIG) que capturan datos que incluyen información de ubicación, por ejemplo, direcciones o coordenadas de latitud / longitud. Ejemplos de aplicaciones incluyen la incorporación de datos espaciales en regresiones espaciales (p. Ej., ¿Cómo se correlaciona la disposición del consumidor a comprar un producto con la ubicación?) O simulaciones (p. Ej., ¿Cómo funcionaría una red de cadena de suministro de fabricación con sitios en diferentes ubicaciones?).
- Estadística. La ciencia de la recopilación, organización e interpretación de datos, incluido el diseño de encuestas y experimentos. Las técnicas estadísticas a menudo se usan para hacer juicios sobre qué relaciones entre variables podrían haber ocurrido por casualidad (la “hipótesis nula”), y qué relaciones entre variables probablemente resultan de algún tipo de relación causal subyacente (es decir, que son “estadísticamente significativas”) . Las técnicas estadísticas también se utilizan para reducir la probabilidad de errores de Tipo I (“falsos positivos”) y errores de Tipo II (“falsos negativos”). Un ejemplo de una aplicación es la prueba A / B para determinar qué tipos de material de marketing aumentarán más los ingresos.
- Aprendizaje supervisado. El conjunto de técnicas de aprendizaje automático que infieren una función o relación a partir de un conjunto de datos de entrenamiento. Los ejemplos incluyen máquinas de clasificación y vectores de soporte.30 Esto es diferente del aprendizaje no supervisado.
- Simulación. Modelando el comportamiento de sistemas complejos, a menudo utilizados para pronosticar, predecir y planificar escenarios. Las simulaciones de Monte Carlo, por ejemplo, son una clase de algoritmos que se basan en muestreo aleatorio repetido, es decir, ejecutan miles de simulaciones, cada una basada en supuestos diferentes. El resultado es un histograma que proporciona una distribución de probabilidad de resultados. Una aplicación está evaluando la probabilidad de cumplir con los objetivos financieros debido a las incertidumbres sobre el éxito de varias iniciativas.
- Análisis de series temporales. Conjunto de técnicas de estadísticas y procesamiento de señales para analizar secuencias de puntos de datos, que representan valores en momentos sucesivos, para extraer características significativas de los datos. Los ejemplos de análisis de series temporales incluyen el valor horario de un índice bursátil o el número de pacientes diagnosticados con una afección determinada todos los días.
- Predicción de series de tiempo. El pronóstico de series de tiempo es el uso de un modelo para predecir valores futuros de una serie de tiempo basada en valores pasados conocidos de la misma u otra serie. Algunas de estas técnicas, por ejemplo, el modelado estructural, descomponen una serie en componentes de tendencia, estacionales y residuales, que pueden ser útiles para identificar patrones cíclicos en los datos. Ejemplos de aplicaciones incluyen pronosticar cifras de ventas o predecir el número de personas que serán diagnosticadas con una enfermedad infecciosa.
- Aprendizaje sin supervisión. Un conjunto de técnicas de aprendizaje automático que encuentra estructura oculta en datos sin etiquetar. El análisis de conglomerados es un ejemplo de aprendizaje no supervisado (en contraste con el aprendizaje supervisado).
- Visualización. Técnicas utilizadas para crear imágenes, diagramas o animaciones para comunicar, comprender y mejorar los resultados de los análisis de big data. Esto se expande en la creación de paneles, en plataformas web o de escritorio.
Espero que esta redacción algo elaborada te sirva de inspiración. ¡Sigue siendo bendecido e inspirate!