Algunas razones:
1. Logística: Hadoop es típicamente (no siempre) para volúmenes muy grandes de datos. Si esos datos se originan en la nube pública, a menudo tiene sentido ejecutar Hadoop también en la nube pública. Nosotros (Cloudera) tenemos varios clientes que ejecutan CDH en EC2 por este motivo.
Alternativamente, si usted es un operador o fabricante de telecomunicaciones, casi ninguno de sus datos se origina en la nube pública. El esfuerzo que se requiere para enviar y actualizar unos pocos cientos de TB de datos de varios centros de datos a la nube pública no es trivial. Los clientes con los que he hablado que han intentado decir que el costo del ejercicio de envío de datos suele ser mayor que cualquier ahorro que esperaban de pasar a un entorno de nube pública.
- ¿Cuál es el mejor sistema POS en la nube para integrar ladrillo y mortero, comercio electrónico y lealtad junto con una solución perfecta que rastrea el ROI?
- ¿Qué tan fácil es cambiar de Parse a otra plataforma en la nube?
- ¿Cuál es más prometedor como carrera: Azure o AWS?
- ¿El gobierno de SOA es similar a la administración de API?
- ¿Qué son los servicios de facturación ENT Cloud?
2. Cumplimiento / regulación. Muchas empresas simplemente no pueden enviar sus datos a entornos de terceros por razones de política o normativas de la empresa.
3. Costo. Si ejecuta constantemente cargas de trabajo de Hadoop durante más de unas pocas horas al día, generalmente es más barato ejecutarlo en casa, incluso teniendo en cuenta el espacio colo, los servidores, etc.
4. Rendimiento. Hadoop en hardware dedicado es bastante más rápido que Hadoop en un entorno de nube pública. Tanto como 4X en el caso de HBase. Hadoop / HBase que se ejecuta en algunas de las mejores instancias de HPC que ahora ofrece Amazon aparentemente funciona mucho mejor, pero no les he costado el costo de ver dónde está el punto de cruce financiero entre la nube / en las instalaciones.