Cómo determinar la distribución que sigue un conjunto de datos

En Wolfram Language (WL) tiene una función dedicada FindDistribution, que se basa en algoritmos de aprendizaje automático. Puede darle muchas sugerencias para posibles modelos, que podrían servir como un excelente punto de partida si no es la solución real. Aquí hay un ejemplo de cómo funciona en el ejemplo de la ley Zipf. Comience desde un conjunto de datos, por ejemplo, cuente el número de apariciones de palabras en la Declaración de Independencia:

text = ExampleData [{“Text”, “DeclarationOfIndependence”}, “Words”];
wordCount = Tally [texto] [[Todos, 2]];

Entonces estimar la distribución del conteo de palabras es tan fácil como:

En [2]: = dist = FindDistribution [wordCount, MaxItems -> 1]
Fuera [2] = Distribución Zipf [1.63521]

Compare los histogramas de los datos originales con el PDF de la distribución estimada:

Mostrar[
Histograma [wordCount, {1,20,0.9}, “ProbabilityDensity”],
DiscretePlot [PDF [dist, x], {x, 1,20}, PlotStyle-> PointSize [Medium]]
]

Puedes probar este código gratis en:

Plataforma de desarrollo Wolfram (Open Cloud)

si no tienes Mathematica.

Análisis de datosAprendizaje automáticoCiencia de datosdatosDatos deestadísticasMinería de

Related Content

Cómo detectar si a una cadena le faltan espacios entre palabras

¿Cuál es la biblioteca de aprendizaje profundo más fácil de aprender?

¿Cuál es la relación entre el modelo Log Linear, el modelo MaxEnt y la regresión logística?

¿Existe una conexión entre la ciencia de datos y el aprendizaje automático?

¿Cómo debo abordar mi tesis sobre 'conversión de lenguaje de señas a texto'? ¿Cuál debería ser el método?

¿Qué tan disponible está el acceso a Internet sin censura en Rusia y China?

Cómo estudiar el aprendizaje automático mientras se construye una cartera

En Python pandas hay una función llamada cut y qcut … con parámetros como datos y bins.

Te quiero cuenta original ..
Da un contenedor para cada fila a la que pertenece.

Si desea el recuento total de cada contenedor … puede usar …
value_counts con función de corte como parámetro

Siga los enlaces a continuación para obtener más información …

pandas.cut – documentación de pandas 0.20.3

Si desea contar igual en todos los contenedores, use qcut

pandas.qcut – documentación de pandas 0.20.3

Para el recuento de muestras en cada contenedor:

pandas.Series.value_counts – documentación de pandas 0.20.3

Espero que esto te pueda ayudar …

Krish Na

Intente usar el histograma o una gráfica cuantil con muestras aleatorias de una distribución dada.

Colleen Farrelly

More Interesting

¿Qué es la regresión logística?

¿Cuál es una explicación intuitiva de las expectativas de la correlación Radamacher?

¿Qué es una explicación intuitiva de los modelos de mezcla gaussiana?

¿Cómo se hacen los algoritmos EM?

¿Por qué es tan difícil la IA? ¿Por qué todavía no hemos construido una máquina de IA?

¿Cuáles son las ventajas de aprender Apache Spark?

¿Es posible utilizar el aprendizaje automático en la votación para que podamos incluir las razones de los votantes en lugar de sí / no?

¿Es posible cambiar a un doctorado en aprendizaje automático después de un MPhil en econometría?

Cómo calcular un proceso de red neuronal artificial

¿Qué algoritmos son los mejores para el filtrado de spam? ¿Cómo deberían implementarse?

¿Cómo determina el algoritmo de aprendizaje automático de Quora la clasificación de la calidad de la pregunta?

¿Con qué biblioteca de aprendizaje automático debo experimentar entre SparkML, Microsoft Azure ML y AWS ML?

¿Qué tamaño debería tener mi bosque aleatorio aproximadamente si tengo 17 variables y medio millón de registros?

¿Cuál es la diferencia entre un sistema recomendado basado en la utilidad del sistema y un sistema recomendado basado en el contenido del sistema?

¿Cómo agrupamos el comportamiento de navegación de usuarios similares y seleccionamos características separables?

Web Analytics