En Wolfram Language (WL) tiene una función dedicada FindDistribution, que se basa en algoritmos de aprendizaje automático. Puede darle muchas sugerencias para posibles modelos, que podrían servir como un excelente punto de partida si no es la solución real. Aquí hay un ejemplo de cómo funciona en el ejemplo de la ley Zipf. Comience desde un conjunto de datos, por ejemplo, cuente el número de apariciones de palabras en la Declaración de Independencia:
text = ExampleData [{“Text”, “DeclarationOfIndependence”}, “Words”];
wordCount = Tally [texto] [[Todos, 2]];
Entonces estimar la distribución del conteo de palabras es tan fácil como:
- Soy maestra de preescolar pero estoy muy interesado en las máquinas y quiero comenzar un aprendizaje adecuado. ¿Donde debería empezar?
- ¿Qué es la estimación de contraste de ruido (NCE)?
- ¿Qué tan popular y extendido es el aprendizaje automático en África?
- Como principiante en el procesamiento del lenguaje natural, ¿desde dónde debo comenzar?
- ¿Cómo aprenden los algoritmos de aprendizaje automático de los datos?
En [2]: = dist = FindDistribution [wordCount, MaxItems -> 1]
Fuera [2] = Distribución Zipf [1.63521]
Compare los histogramas de los datos originales con el PDF de la distribución estimada:
Mostrar[
Histograma [wordCount, {1,20,0.9}, “ProbabilityDensity”],
DiscretePlot [PDF [dist, x], {x, 1,20}, PlotStyle-> PointSize [Medium]]
]
Puedes probar este código gratis en:
Plataforma de desarrollo Wolfram (Open Cloud)
si no tienes Mathematica.