¿Cuáles son los métodos de ciencia de datos más utilizados en los negocios?

Big Data Analytics es para ayudar a las empresas a tomar decisiones comerciales más informadas al permitir que DATA Scientist, modeladores predictivos y otros profesionales de análisis analicen grandes volúmenes de datos de transacciones, así como otras formas de datos que pueden ser aprovechadas por los programas convencionales de inteligencia empresarial (BI) . Eso podría incluir registros del servidor web y datos de Internet Click Stream, contenido de redes sociales e informes de actividad de redes sociales, texto de correos electrónicos de clientes y respuestas de encuestas, registros detallados de llamadas de teléfonos móviles y datos de máquinas capturados por sensores conectados a INTERNET. Algunas personas se asocian exclusivamente Big Data con datos semiestructurados y no construidos de ese tipo, pero las firmas consultoras como Gartner Inc. y Forrester Research Inc. también consideran que las transacciones y otros datos estructurados son componentes válidos de las aplicaciones de análisis de Big Data. Entrenamiento de Big Data y Hadoop con certificación en línea

Los grandes datos se pueden analizar con las herramientas de software comúnmente utilizadas como parte de las disciplinas de Advance Analytics, como la minería de datos de análisis preventivo, el análisis de texto y el método estadístico. El software de BI convencional y las herramientas de visualización también pueden desempeñar un papel en el proceso de análisis. Pero los datos semiestructurados y no estructurados pueden no encajar bien en el Data Warehouse tradicional basado en la base de datos relacional. Además, es posible que los almacenes de datos no puedan manejar las demandas de procesamiento que plantean los conjuntos de grandes datos que deben actualizarse con frecuencia o incluso de manera continua, por ejemplo, datos en tiempo real sobre el rendimiento de aplicaciones móviles o de oleoductos y gasoductos. Como resultado, muchas organizaciones que buscan recopilar, procesar y analizar grandes datos han recurrido a una nueva clase de tecnologías que incluye Hadoop y herramientas relacionadas como Yarn Spook, Spark y Pig, así como bases de datos No Sql. Esas tecnologías forman el núcleo de un marco de software de código abierto que admite el procesamiento de conjuntos de datos grandes y diversos en sistemas en clúster.

En algunos casos, los sistemas Hadoop Cluster y No SQL se están utilizando como plataformas de aterrizaje y áreas de preparación de datos antes de que se carguen en un almacén de datos para su análisis, a menudo en forma resumida que es más propicio para las estructuras relacionales. Sin embargo, cada vez más, los proveedores de Big Data están impulsando el concepto de una toma de datos de Hadoop que sirve como el depósito central para los flujos entrantes de datos sin procesar de una organización. En tales arquitecturas, los subconjuntos de datos se pueden filtrar para su análisis en almacenes de datos y bases de datos de análisis, o se pueden analizar directamente en Hadoop utilizando herramientas de consulta por lotes, software de procesamiento de flujo y tecnologías SQL y Hdoop que ejecutan consultas interactivas y ad hoc escritas en SQL Las posibles trampas que pueden hacer tropezar a las organizaciones en iniciativas de análisis de big data incluyen la falta de habilidades analíticas internas y el alto costo de contratar profesionales analíticos experimentados. La cantidad de información que suele estar involucrada, y su variedad, también pueden causar dolores de cabeza en la gestión de datos, incluidos la calidad de los datos y los problemas de coherencia. Además, integrar sistemas Hadoop y almacenes de datos puede ser un desafío, aunque varios proveedores ahora ofrecen conectores de software entre Hadoop y bases de datos relacionales, así como otras herramientas de integración de datos con capacidades de big data.

Las empresas están utilizando el poder de los conocimientos proporcionados por Big Data para establecer instantáneamente quién hizo qué, cuándo y dónde. El mayor valor creado por estos conocimientos oportunos y significativos de grandes conjuntos de datos es a menudo la toma de decisiones empresariales efectivas que permiten los conocimientos.

Extrapolar información valiosa de cantidades muy grandes de datos estructurados y no estructurados de fuentes dispares en diferentes formatos requiere la estructura adecuada y las herramientas adecuadas. Para obtener el máximo impacto comercial, este proceso también requiere una combinación precisa de personas, procesos y herramientas analíticas.

Esto es difícil de responder en abstracto porque realmente depende del tipo de negocio al que se refiera. Por ejemplo, los métodos en finanzas serán bastante diferentes de los métodos utilizados, por ejemplo, en biología computacional. En resumen, y dada mi experiencia, esta es una lista de métodos que son bastante comunes y con los que debería estar familiarizado. He tratado de ordenarlos de acuerdo con la probabilidad de que los encuentre en un entorno empresarial, aunque eso es bastante subjetivo:

  1. Regresión lineal
  2. Regresión logística
  3. Árboles de decisión impulsados ​​por gradiente
  4. k-significa
  5. Factorización matricial / SVD
  6. Bosques al azar
  7. Redes neuronales artificiales (incluidas las redes profundas)
  8. SVM
  9. Bayes ingenuos
  10. LDA
  11. Redes Bayesianas
  12. Redes elásticas
  13. Otros algoritmos de agrupamiento además de k-means
  14. Campos aleatorios condicionales
  15. HDP u otro modelo no paramétrico bayesiano

La ciencia de datos integra muchos elementos diferentes de diferentes campos, incluidos el procesamiento de señales, las matemáticas, la teoría de la probabilidad, el aprendizaje automático, la programación informática, las estadísticas, el reconocimiento de patrones, la visualización, el almacén de datos, etc. Por lo tanto, es difícil decir qué método se usa con más frecuencia, pero Básicamente, para negocios, puede considerar las siguientes tecnologías:
1) Para analizar sus datos, es mejor que primero pruebe los métodos de visualización, si sus datos son datos de alta dimensión, el PCA (análisis de componentes principales) es una buena manera de visualizar sus datos a primera vista, luego puede decidir qué métodos deben emplearse siguiente.
2) Depende de sus objetivos y sus datos, se pueden utilizar diferentes métodos de aprendizaje automático. Para el negocio, la mayoría de los problemas pertenecen a la clasificación, regresión, asociación y selección de características.
3) La tecnología de almacenamiento de datos también es importante para la inteligencia de negocios. Como no soy similar con eso, no hay más juicio aquí.

Gracias por el A2A Tunji.

Diría que las empresas en general no están cerca de implementar la ciencia de datos, suponiendo que usted defina la ciencia de datos en un verdadero contexto de big data, a una escala en la que aún pueda hacer tales generalizaciones. Sin embargo, hay bolsillos de gran capacidad analítica en muchas organizaciones, que eventualmente pueden evolucionar a la ciencia de datos con el tiempo a medida que Big Data e IoT ganan una mayor posición en los negocios.

Sin embargo, en términos de los bolsillos de fuerte capacidad analítica mencionados anteriormente, estos incluirían métodos matemáticos y estadísticos tradicionales, incluyendo regresión y otros modelos de ajuste de curvas para tendencias, distribuciones y simulación para predicción, así como agrupamiento.

El desafío de utilizar el análisis “avanzado” y la ciencia de datos en los negocios es la dificultad que algunos tienen para explicarlo a los negocios de tal manera que los negocios confíen en el resultado y sepan qué hacer con el resultado. Esto es cada vez más cierto en todo tipo de “gurús” analíticos aficionados de repente en la escena que ignoran cómo pueden estar violando las suposiciones incluso de las herramientas más básicas que pueden estar utilizando, y las empresas ni siquiera son conscientes de que estas herramientas tienen supuestos, por lo que no podemos hacer las preguntas correctas para probar la validez del modelo. Estos mismos “expertos” probablemente tendrían dificultades para calcular el cambio porcentual, no importa ser capaz de convencerlo acerca de por qué su modelo de simulación solo usa distribuciones normales.

Depende en gran medida de los problemas en cuestión.

Las empresas a menudo quieren predicciones (del mercado, estrategias, personas que compran sus productos, lo que quieren sus clientes …) y la optimización de los procesos actuales.
A menudo se solicitan estrategias existentes (minería de texto, análisis de sentimientos, agrupación de clientes, detección de fraude, …). Pero a veces aparece una nueva pregunta (¿puede encontrar formas de ubicar a las personas en una tienda? ¿Puede descubrir dónde necesitamos construir nuestra próxima tienda? ¿Podemos hacer una aplicación que brinde a los usuarios conocimiento de la cadena de suministro?).
A veces es la limpieza de datos o el asesoramiento sobre la recopilación de datos … que en realidad aparece en la mayoría de los proyectos. Estadística descriptiva simple también.

Me gusta la diversidad de temas y cómo necesita encontrar una solución adecuada (elegir técnicas, probarlas, prueba y error, optimizar, …).

¿El método de ciencia de datos más utilizado en los negocios?

Limpieza de datos.

Antes de que pueda analizar datos o ejecutar su negocio algorítmicamente, necesita datos limpios y confiables. Cada proyecto de ciencia de datos corporativos depende de la limpieza de los conjuntos de datos (o al menos cuantificar cuán malos y / o inexactos son). Casi todos los científicos de datos con los que he hablado o trabajado dicen que pasan grandes y dolorosas cantidades de tiempo discutiendo conjuntos de datos en algo que pasa una prueba de olor básica.

Principalmente métodos de predicción que intentan predecir la demanda, por ejemplo, en los próximos 6 meses. Si la predicción es “buena” (nunca se sabe hasta los próximos 6 meses), entonces pasa a los árboles de decisión y para eso necesita probabilidades.

Una parte importante es también la probabilidad bayesiana, es decir, la probabilidad condicional.

Otra cosa es el análisis de la canasta de mercado que significa reglas de asociación. Se trata de encontrar patrones en las ventas, por ejemplo, cerveza y papas fritas van juntas.

Finalmente, minería de texto y análisis de sentimientos.

El área más común y buscada de la ciencia de datos en los negocios es la “minería de datos”. Sí, el modelado predictivo obtiene la luz de los medios, pero los científicos de datos dedican la mayor parte de su tiempo a identificar fuentes precisas, recopilar, agregar, formatear, enriquecer y estandarizar datos. Este trabajo de preparación generalmente está subestimado, pero es tan importante como las etapas posteriores del proceso de ciencia de datos: analizar, predecir, modelar y visualizar.

Sin duda, la disputa de datos, pero como creo que está buscando una respuesta más inteligente que esta, aquí va …

No puedo hablar por otras industrias, pero en el desarrollo de juegos y experimentos de publicación, el análisis de datos y la investigación son muy altos en las listas.

En el lado del aprendizaje automático, a menudo se considera la predicción de abandono y hay una gran cantidad de minería, pero, al menos en nuestro caso, en el contexto del análisis de datos y la investigación.

¡Espero que esto ayude!

Los métodos de ciencia de datos difieren enormemente en función no solo del objetivo específico sino también de la industria. En marketing, estamos más preocupados por el rendimiento histórico y menos preocupados por las predicciones futuras. Me imagino que las finanzas y la logística estarían más preocupadas por las predicciones, mientras que la atención médica podría inclinarse más hacia los sistemas dinámicos.

Todos estos métodos tienen algunos pasos comunes que deben tomar todos los científicos de datos. Esto incluye verificar la precisión, formatear para el análisis y visualizar el consumo.

Prepárese para pasar el 80-90% de su tiempo en estos 3 puntos.

El más común es la agregación, correlación e informes. Nada de ciencia espacial aquí. Simplemente obtenga una gran cantidad de datos de series temporales y estudie cosas como la estacionalidad, la velocidad y las tendencias. Los datos de varias fuentes también se reúnen.

Si la pregunta es sobre algo más complicado de lo que yo diría, determinar parámetros importantes (es decir, PCA).

Después de leer todas las respuestas que ya ha tenido para esta pregunta, puedo decir con seguridad que tiene toda la información que podría necesitar para ayudar a su pronóstico comercial. Pero definitivamente recomendaría ver este video increíblemente útil si desea obtener más información sobre pronósticos de negocios.

Pronóstico en 10 minutos Gracias – John Galt Solutions


More Interesting

¿Por qué se usa la regresión logística con tanta frecuencia en la ciencia de datos?

¿Cuáles son los requisitos para los estudios de posgrado en ciencias de gestión como la gestión de operaciones y las ciencias de decisión?

¿Pueden la minería y el análisis de big data encontrar un sesgo en los medios occidentales?

¿Cómo obtiene Seth Stephens-Davidowitz sus datos de Google?

Tengo 24 años y tengo habilidades básicas de análisis de datos (R, Python, SQL, estadísticas, cálculo, etc.). Actualmente trabajo para una empresa de comercio de bonos, pero no soy lo suficientemente bueno (ni quiero) ser analista o ingeniero de datos profesionales. ¿Qué trabajos involucran estas habilidades en menor grado / qué otras habilidades los complementarían?

¿Qué proyectos interesantes de análisis de datos se han completado utilizando herramientas de redes sociales?

Big data o Hadoop, ¿cuáles son esos y con qué debo ir?

¿Qué nuevas empresas recomendarías como lugar de trabajo para un científico de datos junior? No solo en EE. UU., Sino en todo el mundo

Cómo recuperar la ecuación de predicción de R

¿Debo convertirme en un científico de datos si no tengo una ciencia dura o un título universitario cuantitativo?

¿En qué áreas del aprendizaje automático es crucial la cuantificación de la incertidumbre?

¿Existe alguna correspondencia (en línea / visitas cortas al campus) del curso de Ciencia de Datos que ofrecen las Universidades en Europa para los Profesionales que trabajan en India?

¿Vale la pena hacer un curso de PGP en ciencia de datos de la escuela de negocios Aegis?

¿Cómo ayuda un científico de datos a resolver salas de escape?

¿Cuáles son las características en la minería de opinión?