- Admite tanto lotes como transmisión.
- Totalmente administrado: los desarrolladores no necesitan aprovisionar clústeres ni pensar en tipos de máquinas y configuraciones de memoria. Todo está gestionado / oculto
- IO: datos de lectura / escritura de Google Cloud Storage (GCS) para lotes, google cloud pub / sub para transmisión; Esto significa que debe tener sus datos en GCS o usar pub / sub que está en vista previa limitada
- Modelo de programación: exprese el problema como una tubería de flujo de datos (como cascada y crujido en el mundo hadoop). El desarrollador no debe preocuparse si el trabajo es por lotes o en streaming: el flujo de datos sigue siendo el mismo.
- Tecnología – Flume [1] (Batch) y Millwheel [2] (Streaming) – Cascading / Crunch está inspirado en el papel FlumeJava
- Streaming: para transmitir datos constantemente dentro / fuera del flujo de datos, utiliza Google Cloud Pub / Sub, otro producto, un sistema confiable de entrega de mensajes
- Ventana deslizante: ejecuta el programa en la ventana de datos, escribe la salida de nuevo en el sistema pub / subs
- Streaming: exactamente una vez que la garantía y las uniones son compatibles
- No hablaron sobre SLA, rendimiento o precios ya que está en beta privada
- Parece poderoso, pero la adopción será lenta debido a su dependencia de otros servicios de Google Cloud y un modelo de programación ligeramente nuevo.
- [1] http://pages.cs.wisc.edu/~akella…
- [2] http: //static.googleusercontent….