La mayoría de los proveedores de “Big Data” ofrecen soluciones de dispositivos o locales (a diferencia de las basadas en la nube). ¿La falta de nube ofrece un problema de factibilidad tecnológica o de demanda?

Es una serie de factores técnicos y de mercado. Algunos de los más grandes:

  • Muchas empresas no quieren poner sus datos en la nube de otra persona, lo quieren en el sitio. Hay algunas razones para esto, las tres más importantes son las preocupaciones de seguridad, el gasto de cargar constantemente lo que puede ser un conjunto de datos extremadamente grande y el deseo de aprovechar los activos existentes.
  • A los proveedores les resulta mucho más fácil optimizar y diagnosticar el comportamiento de su sistema distribuido si controlan el hardware. Esta ha sido una tendencia a largo plazo en las bases de datos en general. La familiaridad íntima con el hardware puede tener importantes ventajas de rendimiento y estabilidad, y mitiga un caso común en el que el administrador de la base de datos configura incorrectamente el software de una manera que hace que el proveedor se vea mal sin culpa propia.
  • A menos que opere su propio centro de datos, que requiere mucho capital, la mayoría de las compañías de “computación en la nube” solo ofrecen plataformas y entornos que son bastante subóptimos para el estado actual de los sistemas de Big Data. La falta de coincidencia de impedancia suele ser lo suficientemente alta como para que la eficiencia no exista en muchos casos para justificar el soporte de servicios populares en la nube.

La estrategia que he visto surgir es vender el mismo factor de forma del dispositivo de dos maneras: una vez como una “nube privada” operada por el cliente en sus centros de datos y otra vez como un servicio de “nube pública” operado por el proveedor, utilizando el mismos electrodomésticos Esto maximiza la reutilización de la inversión de la plataforma, y ​​puede comenzar a vender en el espacio de “nube privada” antes de invertir el capital en un servicio complementario de nube pública.

Algunos proveedores de BigData están alineados con hardware patentado u optimizado, mientras que otros están estructurados para hardware básico. Por supuesto, Teradata, EMC, Netezza no tienen ofertas en la nube. Por supuesto, Cassandra, Hadoop, MarkLogic funcionan bien en las nubes sin modificaciones (aprovisionadas correctamente). Si su infraestructura requiere mucho movimiento de datos y no la diseña correctamente, su funcionamiento será lento. No estoy de acuerdo con las afirmaciones de que no se puede ejecutar BigData en la nube: el back-end de análisis de Zynga + NetFlix muestra claramente que, incluso con enormes volúmenes de datos, no es AWS ese es el problema. La resiliencia, la latencia, la concurrencia, etc. deben tratarse para cualquier arquitectura de escala masiva en múltiples centros de datos, incluso aquellos dentro de una sola corporación.

De hecho, tenemos bastantes clientes de Big Data que se ejecutan en GoGrid. Y hay algo en común entre todos: primero probaron un entorno altamente / completamente virtualizado y descubrieron que no tenía el rendimiento de E / S que requerían los grandes grupos de datos como Hadoop o Cassandra. Cuando vinieron a nosotros, eligieron tener una solución de infraestructura híbrida (combinación de servidores dedicados / físicos y virtuales: http://j.mp/xVLESy ). En hardware básico, diseñaron su solución de big data y luego con el lado virtual, tuvieron la capa de aplicación. Es una solución bastante interesante que se les ocurrió a estas compañías.