¿Cómo pasar de Data Science a Big Data? ¿Alguien puede darme un cronograma gradual para aprender Big Data?

El objetivo principal del análisis de big data es ayudar a las empresas a tomar decisiones comerciales más informadas al permitir que DATA Scientist, modeladores predictivos y otros profesionales de análisis analicen grandes volúmenes de datos de transacciones, así como otras formas de datos que la inteligencia comercial convencional puede aprovechar. (BI) programas. Hadoop All in 1, Data Science, Statistics and Probability – Clases de capacitación de cursos combinados en línea | Hadoop All in 1, Data Science, Statistics and Probability – Cursos combinados de cursos en línea que podrían incluir registros del servidor web y datos de Internet Click Stream, contenido de redes sociales e informes de actividad de redes sociales, texto de correos electrónicos de clientes y respuestas de encuestas, detalles de llamadas de teléfonos móviles registros y datos de máquinas capturados por sensores conectados a INTERNET Cosas Algunas personas asocian exclusivamente grandes datos con datos semiestructurados y no estructurados de ese tipo, pero las firmas consultoras como Gartner Inc. y Forrester Research Inc. también consideran que las transacciones y otros datos estructurados son componentes válidos de aplicaciones de análisis de big data.

Los grandes datos se pueden analizar con las herramientas de software comúnmente utilizadas como parte de las disciplinas de Advance Analytics, como la minería de datos de análisis predictivo, el análisis de texto y el método estático. El software de BI convencional y las herramientas de visualización también pueden desempeñar un papel en el proceso de análisis. Pero los datos semiestructurados y no estructurados pueden no encajar bien en el Data Warehouse tradicional basado en la base de datos relacional. Además, es posible que los almacenes de datos no puedan manejar las demandas de procesamiento que plantean los conjuntos de grandes datos que deben actualizarse con frecuencia o incluso de manera continua, por ejemplo, datos en tiempo real sobre el rendimiento de aplicaciones móviles o de oleoductos y gasoductos. Como resultado, muchas organizaciones que buscan recopilar, procesar y analizar grandes datos han recurrido a una nueva clase de tecnologías que incluye Hadoop y herramientas relacionadas como Yarn Spook, Spark y Pig, así como bases de datos No Sql. Esas tecnologías forman el núcleo de un marco de software de código abierto que admite el procesamiento de conjuntos de datos grandes y diversos en sistemas agrupados.

En algunos casos, los sistemas Hadoop Cluster y No SQL se están utilizando como plataformas de aterrizaje y áreas de preparación de datos antes de que se carguen en un almacén de datos para su análisis, a menudo en forma resumida que es más propicio para las estructuras relacionales. Sin embargo, cada vez más, los proveedores de Big Data están impulsando el concepto de una toma de datos de Hadoop que sirve como el depósito central para los flujos entrantes de datos sin procesar de una organización. En tales arquitecturas, los subconjuntos de datos se pueden filtrar para su análisis en almacenes de datos y bases de datos de análisis, o se pueden analizar directamente en Hadoop utilizando herramientas de consulta por lotes, software de procesamiento de flujo y tecnologías SQL y Hadoop que ejecutan consultas interactivas y ad hoc escritas en SQL Las posibles trampas que pueden hacer tropezar a las organizaciones en iniciativas de análisis de big data incluyen la falta de habilidades analíticas internas y el alto costo de contratar profesionales analíticos experimentados. La cantidad de información que suele estar involucrada, y su variedad, también pueden causar dolores de cabeza en la gestión de datos, incluidos la calidad de los datos y los problemas de coherencia. Además, integrar sistemas Hadoop y almacenes de datos puede ser un desafío, aunque varios proveedores ahora ofrecen conectores de software entre Hadoop y bases de datos relacionales, así como otras herramientas de integración de datos con capacidades de big data.

Las empresas están utilizando el poder de los conocimientos proporcionados por Big Data para establecer instantáneamente quién hizo qué, cuándo y dónde. El mayor valor creado por estos conocimientos oportunos y significativos de grandes conjuntos de datos es a menudo la toma de decisiones empresariales efectivas que permiten los conocimientos.

Extrapolar información valiosa de cantidades muy grandes de datos estructurados y no estructurados de fuentes dispares en diferentes formatos requiere la estructura adecuada y las herramientas adecuadas. Para obtener el máximo impacto comercial, este proceso también requiere una combinación precisa de personas, procesos y herramientas analíticas. Algunos de los beneficios comerciales potenciales de implementar una metodología eficaz de información de big data incluyen:

  1. Información oportuna de la gran cantidad de datos. Esto incluye los que ya están almacenados en las bases de datos de la compañía, de fuentes externas de terceros, Internet, redes sociales y sensores remotos.
  2. Monitoreo y pronóstico en tiempo real de eventos que impactan el desempeño del negocio o la operación
  3. Capacidad para encontrar, adquirir, extraer, manipular, analizar, conectar y visualizar datos con las herramientas de elección (SAP HANA, SAP Sybase®, SAP Intelligence Analysis para la aplicación del sector público de Palantir, Kapow®, Hadoop).
  4. Convergencia de la solución BDI para variedad con la velocidad de SAP HANA para velocidad
  5. La capacidad de Hadoop para volúmenes de gestionar grandes cantidades de datos, dentro o fuera de la nube, con validación y verificación.
  6. Identificar información importante que pueda mejorar la calidad de las decisiones.
  7. Mitigar el riesgo optimizando las decisiones complejas de eventos no planificados más rápidamente
  • Aborda la velocidad y escalabilidad, movilidad y seguridad, flexibilidad y estabilidad.
  • Integración de datos estructurados y no estructurados.
  • El tiempo de realización de la información es crítico para extraer valor de varias fuentes de datos, incluidos dispositivos móviles, identificación por radiofrecuencia (RFID), la Web y una lista creciente de tecnologías sensoriales automatizadas.
  • SAP HANA proporciona el almacén de negocios / almacén de datos empresariales (BW / EDW) extremadamente acelerado.
  • Hadoop proporciona almacenamiento de datos confiable y procesamiento paralelo de datos de alto rendimiento, la capacidad de almacenar conjuntos de datos extremadamente grandes.
  • La nube es extensible, flexible, escalable, elástica, autorreparable, bajo demanda, etc. y proporciona la plataforma económica de hardware / software con todas las aplicaciones (como Kapow, SAP Intelligence Analysis for Public Sector application de Palantir, CRM, SAP Sybase IQ, SAP Data Services con análisis de texto) para una aceleración rápida con requisitos de menor costo de capital.

Uno de los problemas que abordan las tecnologías de big data es cómo almacenar, procesar y analizar grandes conjuntos de datos (datos grandes, rápidos e inteligentes). Se necesitan arquitectos para lograr esto. Parece centrarse más en cómo tomar datos y tiene sentido, que es análisis. Sugiero mirar Apache Spark, STORM, MapReduce, pero aún necesita tener algoritmos (la parte científica) e implementar los algos dentro de Hadoop u otras plataformas de big data.

Por lo tanto, las tecnologías de Big Data son las herramientas y la parte de ciencia de datos son los algos: necesita ambas.