Más o menos, más o menos. Existe una falacia general entre los profesionales de TI acerca de cuán “grande” debe ser el “Big Data“. La mayoría de las veces, cuando Excel comienza a ceder {Alrededor de 20–30 MB de tamaño con poca búsqueda en V y fórmula}, la gente presiona el botón de pánico {también conocido como “Big Data guys”}. Había trabajado en una reescritura de Dynamic Pricing Engine de Excel a Python, por lo tanto, sé sobre estas cosas.
En general, si escribe bien su código de análisis, se sorprenderá de lo que sus computadoras portátiles pueden procesar {8 / 16GB, i7 Process es la configuración típica en estos días}. Una vez pude hacer algunas cosas básicas en el vertedero de Wikipedia en una sola máquina.
Luego está la teoría de las restricciones en cierto sentido, su Jefe {o, para el caso, su Jefe} no sancionará los Gastos de facturación de AWS o los gastos internos del Clúster Hadoop. En esa situación, se quedará con el uso de algunas ideas innovadoras para procesar datos en una máquina DB decente dedicada.
- ¿Cómo un nuevo graduado que no es CS ingresa a la ciencia de datos?
- ¿Cómo podemos crecer programadores principiantes como ciencia de datos profesional durante unos meses?
- ¿En qué se diferencia un MS en Business Analytics de un MS en Data Science?
- ¿Es útil el nanogrado de Udacity para cambiar el campo de la ingeniería mecánica a la ciencia de datos?
- Si está aprendiendo Data Science, ¿qué tan importante es saber cómo implementar modelos de Machine Learning en lenguajes de nivel inferior (por ejemplo, C ++ o Java)?
La intuición que creo que te ayudará como más fresca incluye:
- Dimensionamiento y limpieza de sus datos {Por ejemplo, trabaje con una versión comprimida, elimine las filas / columnas que no son necesarias para el análisis, etc.}
- Optimización de consultas {Uso de índices, creación de tablas planas y consultas de creación de perfiles}
- RegEx {Las expresiones regulares me han salvado el día varias veces}
- Comprender diferentes esquemas de organización de datos {esto es lo que se cubre en la mayoría de las configuraciones de almacenamiento de datos}
Espero que esto ayude a dar una perspectiva alternativa sobre todo el escenario Big Data vs Data Warehouse.