Primero, ¿qué distribuciones podrían tener sentido? Las distribuciones que enumeró no son sensoriales para los mismos tipos de datos.
Poisson : los datos son discretos y no negativos
Normal : si los datos tienen un valor real y son continuos.
Gamma : los datos son de valor real y no negativos.
Beta : los datos se encuentran en el intervalo (0,1)
Por lo tanto, la selección de posibilidades entre estos cuatro puede hacerse de manera trivial observando el rango y la discreción de los datos. En general, el conocimiento de estas propiedades más cualquier información sobre el proceso de generación detrás de los datos debería limitar drásticamente las posibles distribuciones paramétricas univariadas.
- Cómo seleccionar los atributos sensibles en un conjunto de datos
- ¿Hay algún sitio web gratuito como freecodecamp para aprender aprendizaje automático, inteligencia artificial y ciencia de datos?
- ¿Podemos obtener automáticamente datos de prueba / entrenamiento para un sistema Machine Learning to Rank (MLR)?
- ¿Cuál es el futuro del aprendizaje automático en las finanzas?
- ¿Cómo uso el aprendizaje automático para datos espaciales?
Una vez que se seleccionan las distribuciones paramétricas apropiadas, la forma más directa de compararlas es ajustar los parámetros a los datos (a través de MLE u otro método), y luego comparar un histograma de los datos con la distribución de ajuste.
Si desea automatizar el proceso, sería apropiado calcular las distribuciones de ajuste y maximizar un criterio de información, como el Criterio de información de Akaike o el Criterio de información bayesiano. Estos encapsulan la compensación entre el número de parámetros en el modelo y la probabilidad del modelo dados los datos.
Además, es importante tener en cuenta que los datos podrían no estar adecuadamente descritos por una única distribución univariada. Las mezclas de distribuciones, como los modelos de mezcla gaussiana, pueden ser apropiadas. Dependiendo de la aplicación, los estimadores de densidad del kernel, que no intentan ajustar los datos a una distribución univariada y en su lugar construyen una distribución basada en los datos, podrían ayudar.