Para un big data más reciente, ¿es un almacén de datos una mejor opción o no?

Más o menos, más o menos. Existe una falacia general entre los profesionales de TI acerca de cuán “grande” debe ser el “Big Data“. La mayoría de las veces, cuando Excel comienza a ceder {Alrededor de 20–30 MB de tamaño con poca búsqueda en V y fórmula}, la gente presiona el botón de pánico {también conocido como “Big Data guys”}. Había trabajado en una reescritura de Dynamic Pricing Engine de Excel a Python, por lo tanto, sé sobre estas cosas.

En general, si escribe bien su código de análisis, se sorprenderá de lo que sus computadoras portátiles pueden procesar {8 / 16GB, i7 Process es la configuración típica en estos días}. Una vez pude hacer algunas cosas básicas en el vertedero de Wikipedia en una sola máquina.

Luego está la teoría de las restricciones en cierto sentido, su Jefe {o, para el caso, su Jefe} no sancionará los Gastos de facturación de AWS o los gastos internos del Clúster Hadoop. En esa situación, se quedará con el uso de algunas ideas innovadoras para procesar datos en una máquina DB decente dedicada.

La intuición que creo que te ayudará como más fresca incluye:

  1. Dimensionamiento y limpieza de sus datos {Por ejemplo, trabaje con una versión comprimida, elimine las filas / columnas que no son necesarias para el análisis, etc.}
  2. Optimización de consultas {Uso de índices, creación de tablas planas y consultas de creación de perfiles}
  3. RegEx {Las expresiones regulares me han salvado el día varias veces}
  4. Comprender diferentes esquemas de organización de datos {esto es lo que se cubre en la mayoría de las configuraciones de almacenamiento de datos}

Espero que esto ayude a dar una perspectiva alternativa sobre todo el escenario Big Data vs Data Warehouse.

El almacenamiento de datos es un término muy generalizado en estos días. El conocimiento básico de dwh es imprescindible para todos los aspirantes de TI.

Si está buscando una perspectiva de big data, también debe equiparse con el conocimiento del lago de datos junto con dwh.

Todo lo que necesitas hacer es jugar con los datos

Datawarehousing es el legado de Big data de una manera veraniega, podría decir. Si conoce los conceptos de DWH, sería muy útil para el inicio de BD.

Dwh se está moviendo hacia BD, por lo que podría ayudar