Dados los datos, ¿qué pasos se toman para elegir qué distribución (poisson, normal, gamma, beta, etc.) deben representar los datos?

Primero, ¿qué distribuciones podrían tener sentido? Las distribuciones que enumeró no son sensoriales para los mismos tipos de datos.

Poisson : los datos son discretos y no negativos
Normal : si los datos tienen un valor real y son continuos.
Gamma : los datos son de valor real y no negativos.
Beta : los datos se encuentran en el intervalo (0,1)

Por lo tanto, la selección de posibilidades entre estos cuatro puede hacerse de manera trivial observando el rango y la discreción de los datos. En general, el conocimiento de estas propiedades más cualquier información sobre el proceso de generación detrás de los datos debería limitar drásticamente las posibles distribuciones paramétricas univariadas.

Una vez que se seleccionan las distribuciones paramétricas apropiadas, la forma más directa de compararlas es ajustar los parámetros a los datos (a través de MLE u otro método), y luego comparar un histograma de los datos con la distribución de ajuste.

Si desea automatizar el proceso, sería apropiado calcular las distribuciones de ajuste y maximizar un criterio de información, como el Criterio de información de Akaike o el Criterio de información bayesiano. Estos encapsulan la compensación entre el número de parámetros en el modelo y la probabilidad del modelo dados los datos.

Además, es importante tener en cuenta que los datos podrían no estar adecuadamente descritos por una única distribución univariada. Las mezclas de distribuciones, como los modelos de mezcla gaussiana, pueden ser apropiadas. Dependiendo de la aplicación, los estimadores de densidad del kernel, que no intentan ajustar los datos a una distribución univariada y en su lugar construyen una distribución basada en los datos, podrían ayudar.

¿Cuál es el futuro de Big Data e IOT para tomarlo como una carrera futura después de algunos años de experiencia en la industria india de TI?

¿Cuáles son algunas ideas de investigación para la minería de datos en la agricultura?

¿Cuál es la diferencia exacta entre Big Data, Data Science y Data Analytics?

¿Qué será mejor para un empleado de TI con experiencia de 3 años, para seguir un curso a tiempo completo o un curso a tiempo parcial en Data Science?

¿Qué tan grande será el mercado para el modelado de datos de crowdsourcing? ¿Qué sectores se beneficiarán más? ¿Qué tipos de expertos se ganarán la vida compitiendo en estos sitios en el futuro?

¿Estar basado en datos es un rasgo fundamental de la personalidad, o puede adquirirse como una habilidad?

Es sorprendente que nadie haya citado pruebas de bondad de ajuste. Dos ejemplos de tales pruebas son la prueba de chi-cuadrado y la prueba de Kolmogorov-Smirnov (KS). Usted prueba si se puede suponer que los datos siguen una distribución de probabilidad particular. La hipótesis nula es que los datos son una muestra de la distribución probada, y la hipótesis alternativa es que no se puede suponer que los datos son una muestra de la distribución probada. Las estadísticas de prueba son algunas “medidas de distancia” entre los valores observados y los valores teóricos. Por ejemplo, la estadística de prueba KS es la diferencia máxima entre la distribución acumulativa empírica (es decir, de los datos) y la distribución acumulativa teórica (es decir, del modelo de probabilidad asumido). KS es una prueba muy confiable.

En general, estas pruebas rechazarán la hipótesis nula si tiene muestras pequeñas, incluso si su muestra se origina en la distribución probada. Esto es, tienen una alta tasa de error tipo II en el caso de muestras pequeñas. La razón es que las muestras pequeñas en general no se parecen a su distribución de población. Puede hacer el experimento de simular muestras pequeñas (n <20) a partir de la distribución normal y trazar el histograma, no se verán como una forma de campana. Esto también muestra el riesgo de asumir una distribución particular al observar pequeñas muestras. En otras palabras, estas pruebas son más potentes para muestras grandes (quizás muy grandes, como n> 500). En esta era de “grandes datos”, las muestras grandes no serían un problema en algunos contextos, por lo que es aconsejable utilizar una prueba de bondad de ajuste y puede enriquecer el análisis de datos.

Yuval Feinstein

La respuesta simple es hacer histogramas y diagramas de dispersión y observarlos. Utilice las características de los datos (variable discreta? Variable continua? ¿Variable continua no negativa?) Para limitar la elección de las distribuciones. Finalmente, encuentre una distribución que se ajuste mejor a los datos o que maximice la probabilidad de los datos. Tenga cuidado de no sobreajustar los datos, utilice el buen juicio: el objetivo de la distribución es simplificar los datos en su mente. Las medidas como AIC, BIC y DIC tolerarán más parámetros de los que su mente permitiría.

Si desea comprender cómo surgieron las distribuciones, siga leyendo.

La mayoría de las distribuciones surgen cuando corrige restricciones y maximiza la entropía. El desafío de las distribuciones es cómo ser máximamente incierto mientras está restringido, cómo ser reacio al riesgo cuando su utilidad es pérdida de registro.

Por ejemplo:

La distribución uniforme surge cuando fija el mínimo y el máximo y luego maximiza la entropía.
distribución normal: media fija y norma L2 (varianza o desviación estándar)
Distribución de Laplace: media fija y norma L1
Distribución t o distribución Cauchy: media fija y (1 + log L2) norma – permitiendo la “cola pesada”

La lista continúa, y puedes ver más sobre esto en la página de Taneja http://www.mtm.ufsc.br/~taneja/b … El arte de construir distribuciones parece haberse olvidado, pero la mecánica subyacente es simple, y con computadoras poderosas que ejecutan MCMC ya no tenemos que preocuparnos si es analítico o no.
Entonces, para responder a su pregunta, debe pensar qué restricciones podrían gobernar el fenómeno que está estudiando y cómo expresarlas.

Yuval Feinstein

More Interesting

¿Cuál es el mejor instituto de capacitación en ciencia de datos en NCR?

¿Qué tan importante es el lenguaje de programación R hoy en día? ¿Debo continuar tomando un curso que enseñe el aprendizaje automático a través de la programación R, o ir al curso convencional de aprendizaje automático de Stanford?

¿Cuáles son los mejores 3 institutos de capacitación en el aula para un curso de ciencia de datos con certificación en Hyderabad?

¿Qué instituto es mejor para el curso de ciencia de datos en Bangalore?

¿Existe alguna mejor práctica o técnica para modelar bases de datos / conjuntos de datos para big data y / o aprendizaje automático?

¿Qué es la secuencia de clics?

¿Cuál es el futuro del big data en India?

¿Cuáles son algunos métodos básicos / comunes utilizados para resumir datos?

Cómo mostrar que dos conjuntos de datos tienen distribuciones diferentes

¿Cuáles son buenas técnicas de aumento de datos para un conjunto de datos de imágenes pequeñas?