¿Cuáles son algunos de los “productos de datos” creados por los grandes como Amazon, LinkedIn, Twitter, Facebook, etc.?

LinkedIn ha creado algunos geniales y ha abierto varios de ellos. Samza es el reciente: es similar a la tormenta de Twitter y un motor de procesamiento de eventos complejos en tiempo real que se basa en Apache Kafka. Les permite hacer análisis en tiempo real. Es importante destacar que Samza está construido sobre Hadoop YARN.

Realizan muchos análisis además de los gráficos sociales, como este: Usar el algoritmo de cobertura de conjunto para optimizar la latencia de consulta para un gráfico distribuido a gran escala | Ingeniería de LinkedIn.

También tienen varias otras cosas interesantes, incluyendo Voldemort, una tienda distribuida de valores clave y Sensei, una base de datos semiestructurada distribuida (Presentación de SenseiDB 1.0: una base de datos de código abierto, distribuida, en tiempo real, semiestructurada | Ingeniería de LinkedIn).

Amazon ha realizado un trabajo pionero con Amazon Dynamo, un almacén de valor clave distribuido que se dio cuenta de la consistencia eventual a escala por primera vez. Ahora tienen DynamoDB, que han mejorado con capacidades de consulta: Llevar DynamoDB más allá del valor clave: ahora con capacidades de consulta más rápidas, más flexibles y más potentes. Se ha creado un nuevo sistema de indexación secundario para consultas multidimensionales, más allá de las de valor clave. Indudablemente, Amazon también construyó uno de los primeros motores de recomendación: sus recomendaciones de libros / productos ya son bien conocidas.

Twitter también tiene algunas cosas buenas, comenzando con Storm, el motor informático casi de facto en tiempo real para muchas empresas. También han construido SummingBird, que permite cálculos Map-Reduce en la transmisión de datos. Twitter también creó Parquet, el formato de datos en columnas para Hadoop que se está volviendo bastante popular: Anunciando Parquet 1.0: Almacenamiento en columnas para Hadoop | Blogs de Twitter

Twitter también ha creado Finagle: un sistema de llamada a procedimiento remoto distribuido que viene con detectores de fallas: el rastreador de URL de Twitter está construido sobre Finagle. Gran parte de la programación de red ocurre a través de Netty 4 en Twitter: Gastos generales reducidos de GC | Blogs de Twitter, incluso con Finagle construido sobre Netty 4.

Twitter también contribuye significativamente al código abierto, incluyendo cosas como la recuperación de esclavos en Apache Mesos, un marco de gestión de clúster popular que Twitter utiliza / contribuye ampliamente.

Facebook también tiene algunos productos geniales, incluido el recientemente lanzado Presto DB: Presto | Motor de consulta SQL distribuido para Big Data, que proporciona un motor de consulta SQL sobre un sistema distribuido. Esto es similar a la base de datos F1 de Google y al motor Shark de UC Berkeley.

En términos de ciencia de datos, Facebook tiene bastante trabajo, por ejemplo, consulte la Búsqueda de gráficos de entidades de Facebook: La realización de la búsqueda de gráficos de Facebook.

Cabe mencionar que Facebook fueron creadores de muchas tecnologías de Big Data, incluidas HBase y Cassandra. También han creado RocksDB, una interesante tienda de valores clave: rocksdb

FB también tiene sistemas como Corona, que es un planificador de reducción de mapas (https://www.facebook.com/notes/f…) y contribuciones a sistemas como Giraph para el procesamiento de gráficos a gran escala (Escalando Apache Giraph a un billón de bordes) .