Si se trata de miles de millones de registros, personalmente usaría PySpark. Se requiere alguna forma de clúster de big data a esa escala. Sin embargo, los datos de ese volumen no son muy comunes a menos que esté trabajando en un lugar como Google o Facebook.
Los datos a escala intermedia, digamos entre 10,000 y 10,000,000 de registros, son mucho más comunes. En un escenario como ese, generalmente dividiré el proceso de limpieza de datos entre la base de datos y Python o R. Más específicamente, crearé una vista o un procedimiento almacenado en la base de datos que desnormalice los datos que necesito en una tabla plana con función columnas
Después de importar la tabla de resultados en Python o R, limpiaré aún más los datos manejando los valores faltantes, codificando características categóricas, etc. Esta división entre la base de datos y el lenguaje de secuencias de comandos es principalmente por conveniencia. Considero que SQL es más fácil para cosas como búsquedas hash, combinaciones y operaciones de configuración, mientras que Python y R son más fáciles para cálculos y transformaciones algorítmicas.
- ¿Cuál es el mejor libro de matemáticas que debería leer un aspirante a científico de datos?
- Cómo encontrar las publicaciones más populares en un sitio web
- ¿Cuál es el mejor instituto para un científico de datos en Hyderabad? ¿Por qué?
- ¿Cuál sería una buena pila tecnológica para aprender para un ingeniero de datos principiante?
- ¿Es la velocidad de la luz una restricción para los grandes datos?