¿Cuál es la relación entre cloud computing y big data?

Big Data (o cualquier dato) se puede almacenar en cualquier lugar. Para comprender por qué ambos están a menudo agrupados, debe comprender realmente qué es Big Data y cómo manejarlo. Big Data no solo es grande (que es un error común porque el término incluye la palabra grande ) sino que tiene tres características: volumen (grande), velocidad (acumulada a un ritmo rápido) y variedad (puede ser de cualquier tipo). Las empresas tienen grandes volúmenes de datos durante décadas y pudieron procesarlos en EDW durante décadas (aunque a veces puede tomar algunos días o semanas para hacerlo).
Estas son algunas de las razones por las cuales Big Data y la nube están agrupados:

  • Acceso desde cualquier lugar: si sus fuentes de datos están repartidas por todo el mundo, puede usar la nube (pública) para permitir que esas fuentes tengan un acceso más rápido a su almacenamiento
  • Elasticidad: si necesita más almacenamiento para almacenar los datos, una plataforma en la nube puede expandirse dinámicamente para adaptarse a sus necesidades de almacenamiento. Si ya no necesita el almacenamiento (que en realidad es algo inteligente una vez que obtiene la información de los datos), puede reducirlo y no pagar más.
  • Escalabilidad como Gary menciona a continuación, que le permite procesar los datos más rápido que la forma tradicional

Al final del día, siempre se trata de un costo. Si procesa los datos en una plataforma tradicional, necesita aprovisionar el almacenamiento y calcular por adelantado y mantenerlos en funcionamiento para siempre, mientras que con la nube aprovisiona solo lo que necesita (almacenamiento) y cuando lo necesita (procesamiento).

BigData se refiere más precisamente a los flujos de información, por ejemplo, los que provienen de FaceBook o Twitter a través de sus API públicas, que viven en la “nube”.

La oportunidad para los negocios es también hacer que los datos apropiados estén disponibles a través de API públicas para que la gente ‘explote’ las tendencias y relaciones interesantes. O simplemente puede significar un conjunto creciente de datos privados que deberían tratarse con API más abiertas (solo internas) para que los analistas puedan tener más acceso a ellas. Muchas empresas aún son reacias a almacenar sus datos en la nube, a favor de administrarlos “in situ”. Hay muchas razones fiduciarias y legales para esto.

Big Data a menudo es sinónimo de bases de datos NoSQL, diferentes del RDBMS tradicional o de los sistemas de archivos jerárquicos (en los años sesenta) en los que la mayoría de las empresas ya comenzaron o aún son compatibles. Las bases de datos NoSQL son solo listas de pares (clave, atributo) y no tienen un esquema extenso o consultas y tablas predefinidas que hacen que RDBMS sea eficiente durante la consulta (y muy ineficiente durante la actualización). NoSQL tiene la ventaja de que archiva datos a velocidades en tiempo real y admite consultas totalmente ad-hoc sobre las relaciones en los datos. Estas consultas se ejecutan sobre conjuntos de datos paralelos masivos para encontrar nuevas relaciones y patrones en los datos.

Así que Big Data y Cloud realmente se desglosan en temas de Ciencia de datos, OpenAPI, NoSQL, Infraestructura de nube masivamente paralela y distribuida, para una perspectiva completa.

No se puede tener uno sin el otro.

La computación en la nube consiste esencialmente en alquilar las computadoras y los medios de almacenamiento de otra persona en lugar de utilizar los suyos. Esto le dará a alguien la capacidad de almacenar y calcular volúmenes que podrían no ser factibles por sí solos.

Una vez que tenga los datos, ahora tiene la capacidad de hacer análisis que no podía hacer antes. Los datos, y MUCHOS, son lo que necesita para hacer un análisis y obtener información de esos datos. Piénselo de esta manera … está buscando una persona en particular y está viendo una imagen de un gran número de personas. La persona que estás buscando está allí pero enterrada en un mar de rostros. El software de Business Intelligence y los buenos analistas le permitirán examinar todo ese “fluff” y encontrar los detalles que está buscando. Ahora, también se necesita un buen análisis de negocios para tomar esa información y darle sentido. Es como si el software proporcionara los ingredientes correctos, pero se necesita un buen cocinero para hacer un pastel.

En pocas palabras, procesar y almacenar grandes volúmenes de datos requieren escalabilidad, tolerancia a fallas y disponibilidad. La computación en la nube ofrece todo esto a través de la virtualización de hardware. Solo por esa razón, el big data y la computación en la nube son dos conceptos compatibles, a menudo incorporados juntos, ya que la nube permite que los grandes datos estén disponibles, sean escalables y tolerantes a fallas. El concepto está ampliamente implementado: muchas compañías ahora ofrecen Big Data como un servicio (BDaaS), como Azure y stratoscale.

Big Data puede hacer uso de la elasticidad de la nube (puede ser una nube privada interna), porque los backends de big data deben escalar hacia arriba y hacia abajo con la carga de procesamiento y el almacenamiento. Por otro lado, muchas aplicaciones en la nube, es decir, sistemas distribuidos, tienen una gran cantidad de datos rápidos para rastrear, generalmente como transformación de secuencias de eventos inmutables y preagregándolas en almacenes OLAP para consultas posteriores. De todos modos, las aplicaciones en la nube también necesitan escalar en el back-end de su base de datos, y ahí es donde NewSql, BigSql, NoSql y Fast Data (una variación de Big Data) están en juego. Por lo tanto, existe una intersección tan grande entre las aplicaciones distribuidas y los grandes datos, que el proyecto final de la especialización de Coursera Cloud Computing tiene una orientación de ciencia de datos, además de Hadoop MapReduce, Spark, Storm y Spark.

Hola,
SQream Technologies publicó un artículo de blog hace un par de días, titulado The Rapid Convergence of Big Data and the Cloud , que proporciona algunas respuestas a sus preguntas. Aquí está el enlace: La rápida convergencia de Big Data y la nube – SQream.

Aclamaciones,
Gidon

La escalabilidad inherente de las plataformas IaaS y la nube permite a las empresas expandir y contratar sus implementaciones de infraestructura en línea con las necesidades de procesamiento y almacenamiento, agilizando rápidamente los recursos para examinar grandes conjuntos de datos y encontrar el valor. Los datos se hacen más grandes, pero la mayor parte de ese volumen es efímero y gran parte de ellos no es especialmente útil: no hay razón para mantenerlos a largo plazo, lo que hace que las plataformas flexibles, escalables y bajo demanda sean esenciales para maximizar la eficiencia del análisis. Con la fácil disponibilidad del almacenamiento en la nube y la infraestructura informática, las herramientas de análisis de big data y las abundantes cantidades de datos de sensores, dispositivos móviles e interacciones en línea, el contexto se ha llevado a otro nivel. Las empresas ahora pueden recopilar datos de docenas o incluso cientos de fuentes y combinarlos para dar una imagen del mundo con una mayor claridad que nunca antes.

Ambas terminologías tienen altos grados de similitud en la industria de TI. Son interdependientes en la forma en que se requieren recursos en la nube para soportar proyectos y almacenamiento de big data, mientras que big data es un gran caso de negocios para mover la nube.

Big Data se trata más de extraer VALOR de Variedad, Velocidad y Volumen, mientras que Cloud se centra en modelos de autoservicio escalables, elásticos, bajo demanda y de pago por uso. Big Data necesita una gran potencia de cómputo a pedido y almacenamiento distribuido, y Cloud proporciona a la perfección una computadora elástica a pedido requerida para el mismo. La naturaleza de la carga de trabajo de la infraestructura informática de Big Data lo convierte en un caso perfecto para la nube.

Cloud and Big Data trae preocupaciones de seguridad y privacidad de datos. Aquí es donde System Integrators ha estado creando soluciones que se unen a Cloud y Big Data dentro de la empresa para crear una solución elástica escalable de nube privada para aportar el mismo valor que las empresas pueden aprovechar para poner en marcha un procesamiento distribuido escalable dentro de la empresa. Nuevamente, pudimos ver la similitud entre Cloud y Big Data con respecto a las preocupaciones de seguridad y cómo las soluciones innovadoras podrían impulsar estas adopciones dentro de la empresa.

Los grandes datos a menudo se almacenan y procesan en la nube porque los grandes datos son grandes y la nube ofrece escalabilidad . Eso es todo.