¿Por qué las corporaciones optan por las instalaciones de Hadoop-Hive en las instalaciones (como Cloudera) cuando hay opciones disponibles en la nube de Amazon y similares?

Algunas razones:

1. Logística: Hadoop es típicamente (no siempre) para volúmenes muy grandes de datos. Si esos datos se originan en la nube pública, a menudo tiene sentido ejecutar Hadoop también en la nube pública. Nosotros (Cloudera) tenemos varios clientes que ejecutan CDH en EC2 por este motivo.

Alternativamente, si usted es un operador o fabricante de telecomunicaciones, casi ninguno de sus datos se origina en la nube pública. El esfuerzo que se requiere para enviar y actualizar unos pocos cientos de TB de datos de varios centros de datos a la nube pública no es trivial. Los clientes con los que he hablado que han intentado decir que el costo del ejercicio de envío de datos suele ser mayor que cualquier ahorro que esperaban de pasar a un entorno de nube pública.

2. Cumplimiento / regulación. Muchas empresas simplemente no pueden enviar sus datos a entornos de terceros por razones de política o normativas de la empresa.

3. Costo. Si ejecuta constantemente cargas de trabajo de Hadoop durante más de unas pocas horas al día, generalmente es más barato ejecutarlo en casa, incluso teniendo en cuenta el espacio colo, los servidores, etc.

4. Rendimiento. Hadoop en hardware dedicado es bastante más rápido que Hadoop en un entorno de nube pública. Tanto como 4X en el caso de HBase. Hadoop / HBase que se ejecuta en algunas de las mejores instancias de HPC que ahora ofrece Amazon aparentemente funciona mucho mejor, pero no les he costado el costo de ver dónde está el punto de cruce financiero entre la nube / en las instalaciones.

En orden de confianza:

* Si sus datos aún no están en AWS o no se están generando a partir de una aplicación alojada en AWS, puede ser un desafío cargarlo todo y mantenerlo actualizado, especialmente si no ha enviado grandes cantidades de datos entre ubicaciones antes.

* A veces es mejor seguir con lo que sabes y si tienes un grupo de operaciones tecnológicas decente puedes hacer el trabajo más rápido que tener que salir y ‘aprender la nube’

* Es posible que también tenga un montón de hardware por su migración exitosa a la nube, pero supongo que esa es una razón menos común.

Estoy seguro de que también hay otras razones.

Hay un salto adicional para convencer a las personas de que carguen información comercial semi confidencial en la nube. Sí, puede hacer que todo sea seguro, pero debe hacerlo, y debe poder convencer a la parte comercial de que lo ha hecho. Sí, puede asegurarse de que no está cargando datos que no debería estar (información de identificación personal, mejor vigile a los clientes europeos), pero agrega un paso adicional.

Estas no son buenas razones, pero son razones no obstante.

More Interesting

¿Cuánto cuesta configurar el servidor de intercambio en la nube RackSpace?

¿Cuáles son las características que hacen que Box, DropBox y Google Drive sean diferentes entre sí?

En Amazon Web Services y Cloud Computing Amazon (empresa), ¿qué certificación de AWS sugeriría para un desarrollador Java / J2EE con 2 años de experiencia?

¿Cómo se instala un sitio de WooCommerce en los servicios web de Amazon?

¿Cuáles son los beneficios del software Drake Tax de alojamiento en la nube?

En un análisis FODA, ¿cuáles son algunas "amenazas" y "oportunidades" externas para las empresas de gestión de la nube como RightScale, Digital Mines y Scalr?

Cómo ser bueno en informática distribuida

¿Debería un estudiante de ECE aprender computación en la nube?

¿Debo solicitar la certificación de Salesforce o AWS?

¿Ya están todos frustrados al trasladar todo a "The Cloud"? Me encantan los datos instantáneos, locales y seguros ... ¿pensamientos relacionados con tener MS Office en la nube?

¿Cuáles son los últimos temas de investigación en Internet de las cosas y la computación en la nube?

¿Cuál es la diferencia entre grid y cloud computing? ¿Los servicios de red como Globus son aplicables a AWS? ¿Por qué o por qué no?

¿Qué tecnología crecerá en el futuro: Big data o Cloud computing?

¿Qué tan bueno es obtener una Maestría en Computación en la Nube de la Universidad de Maryland University College?

¿El cloud hosting es una fase temporal? ¿Volveremos al alojamiento dedicado / compartido en el futuro?