¿Cómo gestionan sus datos las grandes empresas?

Hola,

Bueno, no se trata de grandes empresas. Se trata de Big Data si se habla de datos en el mundo de la tecnología.

Empresas como Google, Yahoo, Facebook, Microsoft y otras comenzaron a trabajar en Big Data en 2003 y en la actualidad todos los problemas relacionados con los datos se resuelven utilizando Hadoop y la información de Big Data.

Anteriormente, todas las empresas usaban RDBMS para almacenar sus datos, en los que podemos leer una vez y escribir una cantidad de veces que no es aplicable para leer una gran cantidad de datos. Así que Doug Cutting ideó una solución como Hadoop que se basa en trabajar en grandes conjuntos de datos de manera distribuida y paralela. En Hadoop, podemos escribir una vez y leer N la cantidad de veces que se usa HDFS para almacenar datos en el clúster (Grupo de nodos) y podemos procesar los datos de acuerdo con las necesidades de la empresa mediante Map-Reduce. La clasificación, el filtrado, el particionamiento y el almacenamiento (si es necesario) de datos se realiza para calcular el resultado. Esta es la forma moderna y precisa de las empresas de utilizar sus datos.

Las bases de datos NOSQL son como mongoDB, HBase, Cassandra para almacenar grandes conjuntos de datos y también podemos utilizar nuestros datos a través de RDBMS utilizando Sqoop. Exportar e importar datos en la era actual es simple, estratégico, robusto y dinámico. Para obtener más información sobre Data Science, visite los blogs de Hortonworks, TechTarget y muchas otras fuentes de redes sociales, como los Grupos vinculados.

Espero que ayude.

Gracias

Las grandes empresas administran sus datos traduciendo el conocimiento en una mejor toma de decisiones y rendimiento. Los grandes datos pueden generar reducciones dramáticas de costos, mejoras sustanciales en el tiempo requerido para realizar una tarea informática u nuevas ofertas de productos y servicios. También puede soportar decisiones comerciales internas. También gestionan sus datos mediante la recopilación de una gran cantidad de información sobre sus clientes.

Algo de lo que se conoce públicamente:

Google:

  • Google File System y sus sucesores
  • ¿Cuáles son algunas de las ventajas de BigTable de Google?

Facebook

  • ¿Cómo estructura Facebook MySQL para que sea robusto y escalable?
  • ¿Por qué Facebook eligió HBase en lugar de Cassandra para la nueva plataforma de mensajería?

Microsoft:

  • ¿Qué es el cosmos de Microsoft?

Amazonas:

  • ¿DynamoDB es el mismo producto descrito en el documento Dynamo de Amazon?

Gorjeo:

  • ¿Migró Twitter de Memcached a Redis para su almacenamiento en la línea de tiempo? ¿Por qué?
  • Tormenta de Apache

Soy ingeniero de software de personal en Quantcast y procesamos más de 30 petabytes de datos por día. Hace poco contribuí al blog de nuestra empresa con una reseña técnica sobre nuestras políticas de retención de datos e implementación:

Retención de datos a escala (petabyte)

Lanzar a ciegas más hardware al problema funciona por un tiempo. Sin embargo, sin una capa de software inteligente que automatice la eliminación de datos obsoletos, terminará con un árbol de sistema de archivos cada vez más complejo que no solo tiene un impacto en el rendimiento del sistema de archivos sino que también se convierte en una barrera para el descubrimiento de datos para ingenieros y otras personas que interactúan con el sistema.