Consejo 1: aprenda a usar PowerQuery
PowerQuery es un complemento gratuito en Excel 2010, y está integrado con Excel 2013 y 2016. Es esencialmente un pequeño motor ETL (Extract-Transform-Load) de Microsoft SQL Server. PowerQuery le permite limpiar, validar, reestructurar, combinar conjuntos de datos de varias fuentes y llevarlos a Excel. PowerQuery contiene su propio lenguaje llamado “M”, por lo que sus operaciones se pueden automatizar.
Consejo 2: Cambie a la versión Excel 2016 de 64 bits.
- Cómo usar Kaggle, si soy un principiante en el campo de la ciencia de datos y el aprendizaje automático
- ¿Cómo trato con los datos faltantes cuando ejecuto una regresión logística?
- ¿Cuál es la diferencia entre un científico de datos y un analista de tecnología empresarial?
- ¿Cuáles son los principales rasgos necesarios para tener éxito con Big Data?
- ¿Hay alguna plataforma que genere automáticamente informes de información para los usuarios a partir de una tabla de estadísticas?
La versión de 32 bits de Excel solo puede usar 2 Gb de memoria en su computadora, independientemente de la cantidad de memoria física que tenga. La versión de 64 bits puede acceder a cantidades prácticamente ilimitadas de memoria. Esto le permite manejar conjuntos de datos más grandes y con más estabilidad (64x Excel es más rápido y más estable con conjuntos de datos grandes).
Consejo 3: aprenda a usar PowerPivot.
PowerPivot ahora es parte de Excel. Le permite importar conjuntos de datos de múltiples fuentes, combinarlos en un “modelo de datos” y desarrollar tablas dinámicas avanzadas utilizando un lenguaje llamado DAX. Puede usar estas tablas dinámicas para cortar y cortar datos de formas realmente sorprendentes.
PowerPivot (especialmente para la versión Excel 2016 de 64 bits) puede manejar cientos de millones de registros, mucho más de lo que Excel puede manejar por sí mismo (hasta ahora, mi registro personal ha sido más de 300 millones de registros de datos en Excel a través de PowerPivot).
Consejo 4: aprenda a combinar Excel y bases de datos
Esto se puede hacer a través de la interfaz de Excel (a través de consultas de datos) o mediante VBA (mucho más potente).
Si conoce VBA, puede usar la biblioteca de Microsoft llamada “ADO” para acceder a datos de varias bases de datos relacionales, comenzando con una de las más simples: MS Access. Con VBA / ADO, es posible extraer datos en Excel sin guardarlos en el archivo de Excel. Tal enfoque le permite manipular conjuntos de datos muy grandes utilizando Excel solo como un front-end de modelado / análisis mientras mantiene todos sus datos grandes en las bases de datos (donde pertenecen). VBA / ADO también le permite ejecutar sentencias SQL desde Excel, lo que hace posible utilizar todo el poder de las bases de datos modernas como Access, MS SQL Server, Oracle, etc. desde Excel.
Para aprovechar esta combinación, necesitará aprender bases de datos relacionales y SQL, habilidades valiosas que cualquier analista serio debe tener. Comience con MS Access (o SQLite) y luego avance a sistemas más complejos como SQL Server o MySQL.
Consejo 5: Aprenda OLAP, modelado dimensional y tabular (SSAS)
Esto es tan duro como se pone. Aprenda a construir cubos de datos multidimensionales en los Servicios analíticos de Microsoft SQL Server (SSAS) y acceda a ellos desde Excel. Podrá analizar petabytes de datos en Excel. SSAS tiene su propio lenguaje llamado MDX (expresiones multidimensionales), que puede abrir un mundo completamente nuevo para un analista. De hecho, SSAS / Tabular es un hermano mayor de PowerPivot.
Estos dos libros lo pondrán en el camino correcto:
La guía de acceso de Excel Analyst: Michael Alexander
Power Pivot y Power BI: la guía del usuario de Excel para DAX, Power Query, Power BI y Power Pivot en Excel 2010-2016: Rob Collie