¿Qué hizo que Google se transformara de la tecnología Hadoop a Google Cloud Spanner? ¿Cuáles fueron las limitaciones de Hadoop?

tl; dr – Spanner y Hadoop no son reemplazos entre sí

Hadoop y Spanner son manzanas y naranjas, uno es un marco / modelo para procesar grandes conjuntos de datos y el otro es una base de datos, respectivamente. Hadoop no debe considerarse una base de datos

Spanner es una base de datos relacional que puede escalar horizontalmente con la semántica de MySQL. Lo que esto significa es que puede obtener soporte para transacciones ACID y escalar como lo hacen muchas bases de datos NoSQL. Spanner es altamente disponible y consistente, pero no rompe el teorema CAP como se describe en este artículo. Spanner es para aquellos que necesitan una base de datos relacional * escalable horizontalmente disponible a nivel mundial *.

Hadoop, por otro lado, es un marco para procesar grandes conjuntos de datos. Es probable que haya confundido a Spanner para Dataflow. Google ha mencionado que muchas de las cargas de trabajo de Big Data aprovechan el flujo de datos debido a su capacidad de escalar automáticamente y eliminar la necesidad de gestión de la infraestructura. Dataflow es realmente una evolución de Hadoop. Puede leer más sobre la comparación entre Hadoop y Dataflow.

No hay nada malo o bueno, sino más bien la evolución de hadoop en un sistema que no requiere administración de infraestructura y proporciona un modelo para datos por lotes y de transmisión.

Dataflow también tiene su equivalente de código abierto, Apache Beam, como se discute en este blog.

* Diferencia entre escalar horizontal y verticalmente para bases de datos

Los fundamentos de Hadoop no pretendían alentar una investigación profundamente inteligente.

La respuesta adecuada que obtenga de un grupo Hadoop podría ser 100% precisa, dependiendo del camino de la ocupación.

Varios duplicados de información oficialmente enorme: debido a que HDFS se trabajó sin pensar en la productividad, genera diferentes duplicados de la información. Como mínimo, en su mayor parte hay tres duplicados de la información. Lo que es más, debido al requisito de área de información en el cuidado de la ejecución, observamos todo el tiempo seis duplicados de la información requerida y eso es para información que por ahora es “enorme” por definición.

Refuerzo de SQL extremadamente restringido: hay partes de código abierto que se esfuerzan por configurar Hadoop como un almacén de información consultable, sin embargo, ofrecen un refuerzo de SQL excepcionalmente restringido. Por lo general, necesitan esas capacidades fundamentales de SQL, por ejemplo, subconsultas, “grupo por” examen, etc.

La llave no es un reemplazo de Hadoop.

Lee el documento