¿Cuánto cuesta el almacenamiento en la nube para un inicio de Big Data en rápido crecimiento?

Entonces, esta es una pregunta muy difícil de responder a un alto nivel y sin saber mucho más sobre el modelo de negocios y las prácticas de datos de su aplicación y servicios, pero aquí va.

El almacenamiento en la nube pública viene en muchas formas y formas. Existen servicios de almacenamiento de datos muy económicos, como AWS Glacier, donde puede cargar datos sin costo alguno, y la tarifa de carga mensual es extremadamente baja. Hay competencia en este espacio de los gustos de Google y otros. Estos servicios pueden proporcionar un almacenamiento muy barato para los datos “en frío” que se escriben una vez y rara vez, si alguna vez se accede de nuevo. Para el archivo a largo plazo de datos al final de su vida útil o para la retención a largo plazo de registros o de contenido de medios que solo es relevante por un corto tiempo, estos servicios pueden ser potentes y de bajo costo. La desventaja es que usar los datos se vuelve operacionalmente difícil, si no imposible, en algunos casos. Deben pensarse de manera similar a la copia de seguridad en cinta, donde tiene un largo tiempo de espera para que los datos vuelvan a un estado utilizable. El procesamiento en tiempo real no es posible, y los modelos de cargos para estos servicios generalmente castigan cualquier recuperación de los datos. Por lo tanto, si sus servicios requieren análisis o procesamiento (como OLTP o HADOOP), no son adecuados.

Una vez que haya pasado los servicios de almacenamiento en frío, hay una gran variedad de otros servicios que son principalmente instancias de cómputo de varias velocidades y sabores. Puede elegir la velocidad de cómputo y la capacidad de almacenamiento de la lista de servicios, o como opciones de configuración para cada instancia dentro del servicio a un costo variable. Cuanto mayor sea el rendimiento, mayor será el costo. Más núcleos de potencia de procesamiento, o menor almacenamiento de latencia o mayores niveles de confiabilidad o mayor capacidad de recuperación se convertirán en importantes generadores de costos que influirán en su elección de servicio y configuración.

Como un inicio de “Big Data“, supongo que estará ingiriendo grandes cantidades de datos, pero no está claro si esos datos serán persistentes o si serán analizados de alguna manera y luego descartados o almacenados en frío mientras los resultados del análisis convertirse en el servicio de valor agregado. Existen varias opciones de análisis como servicio en la nube pública que permitirán varios estilos de operaciones analíticas. Las claves para la rentabilidad son la potencia de cálculo de las instancias y el tamaño del conjunto de datos y el estado y la ubicación del producto final.

El último factor importante que destacaría es si el producto final vivirá en la nube pública, o si debe devolverse a una ubicación “en las instalaciones” para su paso final. Hacer trabajo de análisis y Big Data en la nube puede ser muy poderoso, pero a menos que los datos se descarten cuando se procesen, puede enfrentar tarifas de “salida” para que los productos del análisis y / o los datos vuelvan a su estado final. ubicación. Las tarifas de salida pueden ser el factor más importante para decidir cómo implementar mejor en la nube. El uso de la nube para ingerir y analizar datos que se descartan puede ser muy rentable. Almacenar o transmitir solo los resultados relativamente pequeños del procesamiento de datos generalmente se puede hacer a un costo moderado sin tener que comprar hardware en las instalaciones.

Muchas empresas exitosas basadas en la nube se basan en la ingestión de toneladas de datos que se enfrían rápidamente o en la amplia distribución de instancias de cómputo relativamente pequeñas para manejar muchos hilos de carga de trabajo. Fuera de estos dos casos de uso, realmente debe profundizar en los procesos comerciales para determinar si una solución de nube pública será la más rentable. Además del costo, tiene tareas adicionales que hacer en materia de seguridad, soberanía y privacidad de datos que pueden generar costos adicionales si los datos no son locales.