Cómo calcular la distribución estadística en un gran conjunto de datos

Hola,

Es bastante sencillo. Necesitará valores únicos en el conjunto de datos y trazar su frecuencia de ocurrencia.

Si se trata de un conjunto de datos de más de 2,000,000 filas, entonces Excel no podrá hacerlo por usted.
Sugeriría usar R , que es un software de código abierto y tiene una gran cantidad de bibliotecas para hacer que el análisis estadístico sea más fluido y cómodo.

Hay un paquete llamado dplyr en R que le permitirá especificar qué extraer o resumir (podría ser contar, promediar, mediana, etc.) y puede agrupar por una determinada columna (puede hacer esto si desea analizar diferentes subconjuntos dentro del conjunto de datos uno contra el otro).

Por ejemplo, si tenemos 3 columnas en nuestro conjunto de datos (X) Nombre, Fuente y Número, y queremos la distribución estadística para ‘Número’, entonces siga el código escrito a continuación.

El código para resumir la distribución estadística sería:

Resumen %
group_by (Number)%>%
resumir (Número = n ())

Si desea agruparlo por ‘Fuente’, siga esto:

Resumen %
group_by (Número, Fuente)%>%
resumir (Número = n ())

Dplyr es una herramienta muy poderosa: es el equivalente de MS Excel para sumif, countif y mucho más.

Aquí hay una guía rápida para comenzar: tutorial de dplyr

More Interesting

¿Cuáles son las técnicas más modernas de minería de datos / aprendizaje automático en datos CRM?

¿Debo ser un experto en el lenguaje Python para aprender ciencia de datos?

¿Crees que Big Data está creando nuevos modelos de negocio o simplemente cambia la forma en que trabajamos?

¿Cuáles son los casos de uso que aprovechan la tecnología Big data y Blockchain en los servicios financieros?

Dados los datos, ¿qué pasos se toman para elegir qué distribución (poisson, normal, gamma, beta, etc.) deben representar los datos?

¿Cuáles son las fortalezas / debilidades de los diferentes algoritmos de aprendizaje automático?

¿Cómo se conecta Internet? ¿Cómo se transfieren los datos? ¿Cómo se accede a los datos desde diferentes países?

Cómo usar datos de MongoDB para el análisis de datos

¿Cuál es el mejor programa de aprendizaje automático / ciencia de datos cerca del área de Chicago?

¿Es realista que las personas puedan tener el control total de sus datos digitales? ¿Cómo podría cambiar la web comercial y la publicidad en línea?

¿Qué problemas empresariales y sociales causa el consumo de energía del centro de datos?

Acabo de regresar de Strata 2017 y todas las demás botas mostraban una plataforma de ciencia de datos (es decir, Domino). ¿Cuál es tu plataforma favorita y por qué?

Para ser un buen analista de negocios, ¿qué tan bueno debería ser en R prog? ¿Están bien los conceptos básicos o debo tener un conocimiento profundo de ellos?

¿Qué es el analista de datos? ¿Qué él ha hecho?

¿Cuáles son las mejores compañías de big data en INDIA para un desarrollador de software?