¿Cómo manejan las empresas de big data la retención de datos?

El análisis de Big Data es el proceso de examinar grandes conjuntos de datos que contienen una variedad de tipos de datos, es decir, Big Data, para descubrir patrones ocultos, correlaciones desconocidas, tendencias del mercado, preferencias del cliente y otra información comercial útil. Los resultados analíticos pueden conducir a nuevas oportunidades de ingresos de marketing más efectivas, un mejor servicio al cliente, una mayor eficiencia operativa, ventajas competitivas sobre las organizaciones rivales y otros beneficios comerciales.

Visite este enlace: Ciencia de datos, R, Mahout – Clases de capacitación de cursos combinados en línea | Data Science, R, Mahout – Cursos de cursos combinados en línea El objetivo principal del análisis de big data es ayudar a las empresas a tomar decisiones comerciales más informadas al permitir que DATA Scientist, modeladores predictivos y otros profesionales de análisis analicen grandes volúmenes de datos de transacciones, así como otros formas de datos que los programas convencionales de inteligencia empresarial (BI) pueden aprovechar. Eso podría incluir registros del servidor web y datos de Internet Click Stream, contenido de redes sociales e informes de actividad de redes sociales, texto de correos electrónicos de clientes y respuestas de encuestas, registros detallados de llamadas de teléfonos móviles y datos de máquinas capturados por sensores conectados a INTERNET. Algunas personas se asocian exclusivamente Big Data con datos semiestructurados y no estructurados de ese tipo, pero las firmas consultoras como Gartner Inc. y Forrester Research Inc. también consideran que las transacciones y otros datos estructurados son componentes válidos de las aplicaciones de análisis de Big Data.

Los grandes datos se pueden analizar con las herramientas de software comúnmente utilizadas como parte de las disciplinas de Advance Analytics, como la minería de datos de análisis preventivo, el análisis de texto y el método estático. El software de BI convencional y las herramientas de visualización también pueden desempeñar un papel en el proceso de análisis. Pero los datos semiestructurados y no estructurados pueden no encajar bien en el Data Warehouse tradicional basado en la base de datos relacional. Además, es posible que los almacenes de datos no puedan manejar las demandas de procesamiento que plantean los conjuntos de grandes datos que deben actualizarse con frecuencia o incluso de manera continua, por ejemplo, datos en tiempo real sobre el rendimiento de aplicaciones móviles o de oleoductos y gasoductos. Como resultado, muchas organizaciones que buscan recopilar, procesar y analizar grandes datos han recurrido a una nueva clase de tecnologías que incluye Hadoop y herramientas relacionadas como Yarn Spook, Spark y Pig, así como bases de datos No Sql. Esas tecnologías forman el núcleo de un marco de software de código abierto que admite el procesamiento de conjuntos de datos grandes y diversos en sistemas agrupados.

En algunos casos, los sistemas Hadoop Cluster y No SQL se están utilizando como plataformas de aterrizaje y áreas de preparación de datos antes de que se carguen en un almacén de datos para su análisis, a menudo en forma resumida que es más propicio para las estructuras relacionales. Sin embargo, cada vez más, los proveedores de Big Data están impulsando el concepto de una toma de datos de Hadoop que sirve como el depósito central para los flujos entrantes de datos sin procesar de una organización. En tales arquitecturas, los subconjuntos de datos se pueden filtrar para su análisis en almacenes de datos y bases de datos de análisis, o se pueden analizar directamente en Hadoop utilizando herramientas de consulta por lotes, software de procesamiento de flujo y tecnologías SQL y Hdoop que ejecutan consultas interactivas y ad hoc escritas en SQL Las posibles trampas que pueden hacer tropezar a las organizaciones en iniciativas de análisis de big data incluyen la falta de habilidades analíticas internas y el alto costo de contratar profesionales analíticos experimentados. La cantidad de información que suele estar involucrada, y su variedad, también pueden causar dolores de cabeza en la gestión de datos, incluidos la calidad de los datos y los problemas de coherencia. Además, integrar sistemas Hadoop y almacenes de datos puede ser un desafío, aunque varios proveedores ahora ofrecen conectores de software entre Hadoop y bases de datos relacionales, así como otras herramientas de integración de datos con capacidades de big data.

Las empresas están utilizando el poder de los conocimientos proporcionados por Big Data para establecer instantáneamente quién hizo qué, cuándo y dónde. El mayor valor creado por estos conocimientos oportunos y significativos de grandes conjuntos de datos es a menudo la toma de decisiones empresariales efectivas que permiten los conocimientos.

Extrapolar información valiosa de cantidades muy grandes de datos estructurados y no estructurados de fuentes dispares en diferentes formatos requiere la estructura adecuada y las herramientas adecuadas.

Soy ingeniero de software de personal en Quantcast y procesamos más de 30 petabytes de datos por día. Hace poco contribuí al blog de nuestra empresa con una reseña técnica sobre nuestras políticas e implementación de retención de datos:

Retención de datos a escala (petabyte)

Lanzar a ciegas más hardware al problema funciona por un tiempo. Sin embargo, sin una capa de software inteligente que automatice la eliminación de datos obsoletos, terminará con un árbol de sistema de archivos cada vez más complejo que no solo tiene un impacto en el rendimiento del sistema de archivos sino que también se convierte en una barrera para el descubrimiento de datos para ingenieros y otras personas que interactúan con el sistema.

Actualmente, muchas compañías siguen ahorrando y (haciendo copias de seguridad) ^ 10 toneladas de datos, sin darse cuenta de que todo tiene un límite. La disminución en el costo debido a un hardware más barato se compensará con un aumento en el costo debido a la recuperación de datos complicada.

Creo que necesitaremos aprender de cómo funcionan los seres humanos. Durante nuestra vida, acumulamos una enorme cantidad de información. Pero, en lugar de guardar toda esa información tal como está, nuestro cerebro aplica sus sofisticados algoritmos para resumir la información y guardar los resúmenes. Es un tipo de modulación de código de pulso.

Lo que tendremos que hacer a largo plazo es aplicar los principios de Estadísticas y Administración para resumir la información que se agrega y guardar esos resúmenes en lugar de los datos en su formato sin formato.

Por supuesto, las empresas con datos de cantidades pequeñas o manejables pueden seguir guardando sus datos tal como están.