Cómo crear big data

1. Hágalo usted mismo ‘incorporado’ a la estructura de TI empresarial actual de una empresa

Incluso si no están completamente satisfechos con el nivel actual de captura y análisis de datos, la mayoría de las empresas que están considerando la posibilidad de adoptar tecnologías de big data ya cuentan con un marco de TI relativamente moderno y bien dotado de personal basado en sistemas de gestión de bases de datos relacionales (RDB) y datos convencionales. almacenamiento

Por lo tanto, cualquier empresa que ya administre una gran cantidad de datos estructurados con sistemas empresariales y almacenes de datos conoce bastante bien los problemas cotidianos de la administración de datos a gran escala. Parece natural que esas compañías asuman que, dado que los grandes datos son la próxima gran novedad en la evolución de la tecnología de la información, tendría sentido para ellos simplemente construir una infraestructura de tipo NoSQL / Hadoop, incorporada directamente en su marco convencional actual. De hecho, ESG, la firma de asesoría e investigación de mercado de TI, estimó que a principios de 2014, más de la mitad de las grandes organizaciones habrán comenzado este tipo de enfoque de bricolaje. Como hemos visto, como software de código abierto, el precio de un marco de tipo Hadoop (gratuito) es atractivo, y es relativamente fácil, siempre que la empresa tenga empleados con las habilidades necesarias para comenzar a trabajar en aplicaciones Hadoop utilizando Datos de la casa o datos almacenados en la nube.

También hay varios métodos para experimentar con tecnologías de tipo Hadoop utilizando datos fuera de las operaciones normales de una empresa, a través de programas piloto, o lo que Paul Barth y Randy Bean en la red de blogs HarvardBusinessReview describen como un “sandbox analítico”, en el que las empresas pueden probar su en la aplicación de análisis de big data a datos estructurados y no estructurados para ver qué tipos de patrones, correlaciones o conocimientos pueden descubrir.

Pero experimentar con algunas aplicaciones Hadoop / NoSQL para el departamento de marketing está muy lejos de desarrollar un sistema de big data totalmente integrado capaz de capturar, almacenar y analizar grandes conjuntos de datos multiestructurados. De hecho, la implementación exitosa de marcos Hadoop para toda la empresa es relativamente poco común, y es principalmente el dominio de compañías muy grandes y con gran experiencia en el uso de datos en los servicios financieros o las industrias farmacéuticas. Como hemos visto, muchos de esos proyectos de big data aún involucran principalmente datos estructurados y dependen de modelos de datos relacionales y SQL. El análisis a gran escala de datos totalmente no estructurados, en su mayor parte, todavía permanece en el reino enrarecido de poderosas compañías de tecnología de Internet como Google, Yahoo, Facebook y Amazon, o minoristas masivos como Wal-Mart.

Aunque las herramientas basadas en la nube tienen ventajas obvias, cada empresa tiene diferentes datos y diferentes requisitos analíticos.

Debido a que muchos proyectos de Big Data todavía se basan en gran medida en datos estructurados o semiestructurados y modelos de datos relacionales que complementan las operaciones de gestión de datos actuales, muchas empresas recurren a sus proveedores de soporte principales, como Oracle o SAP, para ayudarlos a crear un puente entre lo antiguo y lo nuevo e incorporar tecnologías similares a Hadoop directamente en su enfoque de gestión de datos existente. El Big Data Appliance de Oracle, por ejemplo, afirma que su oferta preconfigurada, una vez que se tienen en cuenta varios costos, es casi un 40% menos costosa que un sistema construido de bricolaje equivalente y puede estar en funcionamiento en un tercio menos de tiempo.

Y, por supuesto, cuanto más se incorporen directamente las tecnologías de big data en el marco de TI de una empresa, aumentará la complejidad y el potencial para la expansión de datos. Dependiendo de las configuraciones, la integración total en un único conjunto de datos masivo (como lo recomiendan los grandes puristas de datos) significa incorporar datos no estructurados e impuros al depósito central de datos de una empresa (incluso si esos datos se distribuyen) y posiblemente compartirlos para analizarlos. , copiado y posiblemente alterado por varios usuarios en toda la empresa, a menudo utilizando diferentes configuraciones de Hadoop o NoSQL escritas por diferentes programadores por diferentes razones. Agregue a eso la necesidad de contratar costosos programadores de Hadoop y científicos de datos. Para los gerentes de RDB tradicionales, ese tipo de enfoque eleva el espectro de innumerables desastres adicionales de datos, costos y solicitudes de trabajo de rescate para el personal de TI ya abrumado.

2. Deja que alguien más lo haga en la nube

La alternativa obvia al enfoque de construirlo usted mismo es alquilar de manera efectiva las aplicaciones, el cálculo y el almacenamiento de big data clave utilizando una solución similar a Hadoop de origen en la nube, extrayendo datos de su propia organización a un repositorio común en la nube y Accedido (o potencialmente incluso completamente administrado) por sus propios ingenieros de datos. En este escenario, ese repositorio basado en la nube puede consistir en datos estructurados y no estructurados y puede mantenerse completamente separado de los datos estructurados diarios, operativos, financieros y transaccionales de la empresa, que permanecerían encerrados en la empresa de la empresa y sistema de gestión de bases de datos relacionales. Este enfoque requiere un poco de reflexión y gestión de datos en la parte frontal, pero una vez que el repositorio en la nube de datos estructurados y no estructurados está disponible, las empresas pueden experimentar con grandes conjuntos de datos y tecnologías analíticas de grandes datos basadas en la nube, ajenos al marco subyacente.

PRO +

Contenido

Encuentre más contenido PRO + y otras ofertas exclusivas para miembros, aquí.

  • Manual electrónico Los usuarios de grandes datos comparten sus historias de guerra de análisis, pero ganadoras.
  • Manual de E-Streams de análisis de datos de IoT en aguas desconocidas
  • E-Zine La visualización efectiva de datos cristaliza la bola de cristal de una empresa

Lo mejor de este enfoque, aparte del hecho de que las empresas no tienen que comprar y mantener la infraestructura de hardware y software, es que es escalable. Las empresas pueden experimentar con diferentes tipos de datos de diferentes fuentes, sin una gran inversión de capital inicial. Los proyectos pueden ser tan pequeños (analizar un puñado de productos o clientes o sitios de redes sociales) o tan complejos como lo desee una empresa. Y, lo más importante, una empresa no tiene que modificar sus sistemas actuales o ejecutar un sistema interno paralelo por sí misma.

Parece la solución perfecta, pero, como siempre, hay inconvenientes. Primero, incluso si las tecnologías de alquiler son realmente capaces de hacer frente a datos muy variados, no significa que los patrones o correlaciones resultantes signifiquen algo a menos que primero ocurra un proceso exhaustivo de limpieza y clasificación de datos. Aunque las herramientas basadas en la nube tienen ventajas obvias, cada empresa tiene diferentes datos y diferentes requisitos analíticos, y como hemos visto en el pasado, las herramientas de talla única rara vez son tan productivas o fáciles de usar como se anuncia. Y, por supuesto, cuando los informes vuelven con resultados distorsionados (y después de un esfuerzo inútil por resolver los problemas técnicos por sí mismos), los usuarios de marketing o ventas probablemente recurrirán al departamento de TI para obtener ayuda, de todos modos. Eso esencialmente significa que una buena parte del personal de TI todavía necesita involucrarse en la gestión de big data y capacitarse en las herramientas y la preparación del esquema de datos que permitirán que este enfoque funcione. Y como se señaló anteriormente, en última instancia, el uso de pequeños subconjuntos de datos, incluso cuando esos datos provienen de una variedad de fuentes y se analizan con tecnologías Hadoop o NoSQL, es realmente una inteligencia de negocios más convencional (con campanas y silbatos) que grandes datos.

Los proveedores basados ​​en la nube obviamente son conscientes de estos problemas. Saben que para que este modelo funcione, las empresas basadas en la nube deben hacer que su oferta sea lo más fácil, flexible y potente posible. Un buen ejemplo de esto es la alianza estratégica entre Hortonworks y Red Hat (Hortonworks proporciona el Hadoop y Red Hat proporciona el almacenamiento basado en la nube), que dicen que incluye modelos de datos preconfigurados, amigables para el negocio y reutilizables, y un énfasis en el cliente colaborativo apoyo.

3. Ejecución de marcos de bases de datos paralelas

Una tercera configuración implica construir un sistema de big data por separado y en paralelo (en lugar de estar integrado con) los sistemas empresariales y de producción existentes de la compañía. En este modelo, la mayoría de las empresas aún aprovechan la nube para el almacenamiento de datos, pero desarrollan y experimentan con las propias aplicaciones de big data de la empresa. Este enfoque de dos estados le permite a la compañía construir el marco de big data del futuro, mientras construye recursos valiosos y conocimiento de propiedad dentro de la compañía. Eso proporciona un control interno completo a cambio de la duplicación de gran parte de la funcionalidad del sistema actual y permite una migración futura a una plataforma de big data completa que eventualmente permitirá que ambos sistemas (convencional y big data) se fusionen.

  • El problema con este enfoque es que, en muchos sentidos, la naturaleza misma de un marco de big data es diferente de la TI convencional. La TI tradicional todavía involucra aplicaciones, sistemas operativos, interfaces de software, hardware y administración de bases de datos, mientras que los grandes datos implican un trabajo de base de datos, pero se trata principalmente de análisis complejos y estructuración de informes significativos, algo que requiere un conjunto de habilidades diferente al que se encuentra en la mayoría de los departamentos de TI. hoy. Aunque esta configuración de lado a lado supone un cierto nivel de ahorro en la economía de escala (compartiendo la potencia informática existente, utilizando el personal actual, etc.), la realidad es que esos ahorros pueden producirse a expensas de interfaces complicadas entre sistemas antiguos y nuevos que tienen que ser diseñados y gestionados.

Big Data está disponible en todas partes y puede utilizarlo para cumplir con nuestro propósito. Su parte se centrará en el avance de los modelos e instrumentos de examen, para prever la calidad y ayudarnos a mejorar con nuestra entrega de calidad SW. El grupo Core Software busca un ingeniero de software experimentado con experiencia para liderar, delinear, crear y enviar aparatos de diagnóstico, – http://bigdatahadooppro.com/