Hola,
Es bastante sencillo. Necesitará valores únicos en el conjunto de datos y trazar su frecuencia de ocurrencia.
Si se trata de un conjunto de datos de más de 2,000,000 filas, entonces Excel no podrá hacerlo por usted.
Sugeriría usar R , que es un software de código abierto y tiene una gran cantidad de bibliotecas para hacer que el análisis estadístico sea más fluido y cómodo.
- ¿Cuál es el programa de estudios para la ciencia de datos?
- ¿Qué papel debería elegir / jugar, si quiero trabajar en Big Data Analytics / Machine Learning?
- ¿Es el Internet de las cosas más sobre programación embebida o ciencia de datos?
- ¿Qué buscas en los científicos de datos?
- ¿Qué tecnología tiene un futuro más brillante, el desarrollo de software full stack o el desarrollo de big data de Hadoop?
Hay un paquete llamado dplyr en R que le permitirá especificar qué extraer o resumir (podría ser contar, promediar, mediana, etc.) y puede agrupar por una determinada columna (puede hacer esto si desea analizar diferentes subconjuntos dentro del conjunto de datos uno contra el otro).
Por ejemplo, si tenemos 3 columnas en nuestro conjunto de datos (X) Nombre, Fuente y Número, y queremos la distribución estadística para ‘Número’, entonces siga el código escrito a continuación.
El código para resumir la distribución estadística sería:
Resumen %
group_by (Number)%>%
resumir (Número = n ())
Si desea agruparlo por ‘Fuente’, siga esto:
Resumen %
group_by (Número, Fuente)%>%
resumir (Número = n ())
Dplyr es una herramienta muy poderosa: es el equivalente de MS Excel para sumif, countif y mucho más.
Aquí hay una guía rápida para comenzar: tutorial de dplyr