Hay mucho que puede hacer con SQL cuando se trata de extracción de datos, estructuración y limpieza. Y si puede usar SQL fácilmente para su trabajo, a menudo es recomendable hacerlo:
- Su código será bastante fácil de transportar entre diferentes herramientas y bases de datos.
- Muchas compañías no tienen demasiadas personas con una comprensión profunda de R, Python, Spark (ya sea con Scala, Python o R) … Pero las personas con algunos conocimientos de SQL son bastante comunes. Entonces la transferencia de código / conocimiento será más fácil.
- Las bases de datos SQL son muy maduras. Con toda probabilidad, serán bastante buenos para procesar sus consultas de manera efectiva.
- Es muy legible, incluso para personas no técnicas aún es posible entender las consultas básicas de SQL. (por supuesto, si entras en subconsultas correlacionadas, el uso masivo de UDF, etc., todas las apuestas se cancelan de nuevo;))
Y probablemente podría hacer mucho de su trabajo dentro de una sola consulta, con muchas subconsultas diferentes. Pero al igual que probablemente pueda escribir una pieza de software en un solo archivo, es probable que sea una mala idea, lo que resulta en un desastre inmanejable.
Por lo tanto, se recomienda trabajar con múltiples consultas de un tamaño más manejable. Cada consulta completa una tarea específica. Creando vistas / tablas temporales / Spark Dataframes / … en el camino.
- ¿Qué campo tiene mejores perspectivas de carrera, Big data o data science?
- ¿Cuál es el rol del controlador de datos en GDPR?
- ¿Qué es la "ciencia" en ciencia de datos? ¿Se trata exclusivamente de la ciencia de monetizar grandes datos, o también hay un aspecto de no negocios?
- ¿Cuáles son los mejores cursos de ciencia de datos en iTunes U?
- ¿Son las certificaciones de Codeacademy SQL y Python lo suficientemente buenas como para ponerlas en un currículum?