¿Cuáles son los consejos prácticos para trabajar con una gran cantidad de datos para el análisis en Excel?

Consejo 1: aprenda a usar PowerQuery

PowerQuery es un complemento gratuito en Excel 2010, y está integrado con Excel 2013 y 2016. Es esencialmente un pequeño motor ETL (Extract-Transform-Load) de Microsoft SQL Server. PowerQuery le permite limpiar, validar, reestructurar, combinar conjuntos de datos de varias fuentes y llevarlos a Excel. PowerQuery contiene su propio lenguaje llamado “M”, por lo que sus operaciones se pueden automatizar.

Consejo 2: Cambie a la versión Excel 2016 de 64 bits.

La versión de 32 bits de Excel solo puede usar 2 Gb de memoria en su computadora, independientemente de la cantidad de memoria física que tenga. La versión de 64 bits puede acceder a cantidades prácticamente ilimitadas de memoria. Esto le permite manejar conjuntos de datos más grandes y con más estabilidad (64x Excel es más rápido y más estable con conjuntos de datos grandes).

Consejo 3: aprenda a usar PowerPivot.

PowerPivot ahora es parte de Excel. Le permite importar conjuntos de datos de múltiples fuentes, combinarlos en un “modelo de datos” y desarrollar tablas dinámicas avanzadas utilizando un lenguaje llamado DAX. Puede usar estas tablas dinámicas para cortar y cortar datos de formas realmente sorprendentes.

PowerPivot (especialmente para la versión Excel 2016 de 64 bits) puede manejar cientos de millones de registros, mucho más de lo que Excel puede manejar por sí mismo (hasta ahora, mi registro personal ha sido más de 300 millones de registros de datos en Excel a través de PowerPivot).

Consejo 4: aprenda a combinar Excel y bases de datos

Esto se puede hacer a través de la interfaz de Excel (a través de consultas de datos) o mediante VBA (mucho más potente).

Si conoce VBA, puede usar la biblioteca de Microsoft llamada “ADO” para acceder a datos de varias bases de datos relacionales, comenzando con una de las más simples: MS Access. Con VBA / ADO, es posible extraer datos en Excel sin guardarlos en el archivo de Excel. Tal enfoque le permite manipular conjuntos de datos muy grandes utilizando Excel solo como un front-end de modelado / análisis mientras mantiene todos sus datos grandes en las bases de datos (donde pertenecen). VBA / ADO también le permite ejecutar sentencias SQL desde Excel, lo que hace posible utilizar todo el poder de las bases de datos modernas como Access, MS SQL Server, Oracle, etc. desde Excel.

Para aprovechar esta combinación, necesitará aprender bases de datos relacionales y SQL, habilidades valiosas que cualquier analista serio debe tener. Comience con MS Access (o SQLite) y luego avance a sistemas más complejos como SQL Server o MySQL.

Consejo 5: Aprenda OLAP, modelado dimensional y tabular (SSAS)

Esto es tan duro como se pone. Aprenda a construir cubos de datos multidimensionales en los Servicios analíticos de Microsoft SQL Server (SSAS) y acceda a ellos desde Excel. Podrá analizar petabytes de datos en Excel. SSAS tiene su propio lenguaje llamado MDX (expresiones multidimensionales), que puede abrir un mundo completamente nuevo para un analista. De hecho, SSAS / Tabular es un hermano mayor de PowerPivot.


Estos dos libros lo pondrán en el camino correcto:

La guía de acceso de Excel Analyst: Michael Alexander

Power Pivot y Power BI: la guía del usuario de Excel para DAX, Power Query, Power BI y Power Pivot en Excel 2010-2016: Rob Collie

Si no desea aprender lenguajes de programación como python o R para la limpieza y análisis de datos, al menos aprenda algunas herramientas de procesamiento de datos como OpenRefine, etc. Tableau también funciona bien con datos no demasiado grandes.

Para grandes cantidades de datos, usaría Python o R, no Excel. Si se trata de un problema de Big Data (conjuntos de datos muy grandes y complejos que no se pueden manejar con métodos tradicionales), usaría Spark / Hadoop.

WTF? No sé de qué estás hablando.
Para los que no son programadores, puede probarlo con Watson Analytics (es una IA de propósito general creada por IBM) y es muy similar a Excel.

Pruébelo aquí: análisis fácil | Inicio | IBM Watson Analytics


Siempre vota las respuestas que encuentres útiles. Todos pueden estar equivocados, así que sean respetuosos y educados.

Por favor, apruebe / recomiende mi Linked-in si me siguió.

Su pregunta está relacionada con la exploración de datos cuando se trata de una gran cantidad de datos.

Encontré una solicitud similar en quora. ¿Cuáles son algunas buenas herramientas de exploración rápida de datos?

En la industria farmacéutica, SAS es muy común para manipular grandes conjuntos de datos.

En Excel, asegúrese de que los cálculos estén configurados en manual cuando trabaje con grandes conjuntos de datos.

More Interesting

¿Cuál es el equivalente R de los ** kwargs de Python?

¿Qué partes del trabajo de un científico de datos tienen menos probabilidades de ser automatizadas en el futuro?

¿Qué es la ciencia de datos? ¿Cuál es el alcance? ¿El análisis de datos y el análisis comercial son lo mismo? ¿Necesitamos estudiar programación?

¿Cuánto tiempo se necesita para invertir en competencias de kaggle?

Pruebas A / B: ¿Es útil el diseño de una base de datos de esquema en estrella para las empresas tecnológicas que experimentan continuamente?

¿Cuáles son los campos de más rápido crecimiento que involucran estadísticas?

¿Qué es un clasificador 'codicioso'?

Actualmente soy gerente de una reconocida empresa de análisis de datos. ¿Está bien para mí continuar en un puesto directivo, o se me considerará solo un gerente general (sin relevancia para la industria analítica) unos años más adelante, sin experiencia práctica en diferentes técnicas / tecnologías? ?

¿Cuáles son los beneficios de los diferentes tipos de esquemas en el contexto del almacenamiento de datos?

¿En qué se diferencian los análisis financieros de los análisis comerciales?

Como aspirante a científico de datos, ¿qué lenguaje de programación debo aprender entre Python, R, C # y Java, dado que no tengo experiencia previa en programación? Tengo una licenciatura en economía y estadística y una maestría en administración.

¿Puedo comenzar a aprender ciencia de datos y ser digno de mercado en 6 meses? Acabo de terminar mi maestría en ingeniería mecánica y tengo habilidades de programación muy básicas (solo C) a partir de ahora.

¿Pueden la minería y el análisis de big data encontrar un sesgo en los medios occidentales?

¿Qué teorías y avances en ciencias sociales (econometría, etc.), biológicas y de otro tipo son útiles para conocer y solicitar un científico de datos?

¿Qué curso es el mejor para una maestría en Estados Unidos, ciencia de datos o aprendizaje automático?