¿Qué deben saber los desarrolladores sobre el nuevo servicio de procesamiento de datos administrado que Google lanzó en Google I / O?

  • Admite tanto lotes como transmisión.
  • Totalmente administrado: los desarrolladores no necesitan aprovisionar clústeres ni pensar en tipos de máquinas y configuraciones de memoria. Todo está gestionado / oculto
  • IO: datos de lectura / escritura de Google Cloud Storage (GCS) para lotes, google cloud pub / sub para transmisión; Esto significa que debe tener sus datos en GCS o usar pub / sub que está en vista previa limitada
  • Modelo de programación: exprese el problema como una tubería de flujo de datos (como cascada y crujido en el mundo hadoop). El desarrollador no debe preocuparse si el trabajo es por lotes o en streaming: el flujo de datos sigue siendo el mismo.
  • Tecnología – Flume [1] (Batch) y Millwheel [2] (Streaming) – Cascading / Crunch está inspirado en el papel FlumeJava
  • Streaming: para transmitir datos constantemente dentro / fuera del flujo de datos, utiliza Google Cloud Pub / Sub, otro producto, un sistema confiable de entrega de mensajes
  • Ventana deslizante: ejecuta el programa en la ventana de datos, escribe la salida de nuevo en el sistema pub / subs
  • Streaming: exactamente una vez que la garantía y las uniones son compatibles
  • No hablaron sobre SLA, rendimiento o precios ya que está en beta privada
  • Parece poderoso, pero la adopción será lenta debido a su dependencia de otros servicios de Google Cloud y un modelo de programación ligeramente nuevo.
  • [1] http://pages.cs.wisc.edu/~akella…
  • [2] http: //static.googleusercontent….

Que hay un producto existente que hace algo muy similar durante varios años, excepto a través de una interfaz visual, también llamada Data Flow (huelo una demanda por infracción de marca inminente), de Actian. En Hadoop

“Google I / O: Hola, flujo de datos, adiós, MapReduce” – ¿Quién dijo eso?