Dados los datos, ¿qué pasos se toman para elegir qué distribución (poisson, normal, gamma, beta, etc.) deben representar los datos?

Primero, ¿qué distribuciones podrían tener sentido? Las distribuciones que enumeró no son sensoriales para los mismos tipos de datos.

Poisson : los datos son discretos y no negativos
Normal : si los datos tienen un valor real y son continuos.
Gamma : los datos son de valor real y no negativos.
Beta : los datos se encuentran en el intervalo (0,1)

Por lo tanto, la selección de posibilidades entre estos cuatro puede hacerse de manera trivial observando el rango y la discreción de los datos. En general, el conocimiento de estas propiedades más cualquier información sobre el proceso de generación detrás de los datos debería limitar drásticamente las posibles distribuciones paramétricas univariadas.

Una vez que se seleccionan las distribuciones paramétricas apropiadas, la forma más directa de compararlas es ajustar los parámetros a los datos (a través de MLE u otro método), y luego comparar un histograma de los datos con la distribución de ajuste.

Si desea automatizar el proceso, sería apropiado calcular las distribuciones de ajuste y maximizar un criterio de información, como el Criterio de información de Akaike o el Criterio de información bayesiano. Estos encapsulan la compensación entre el número de parámetros en el modelo y la probabilidad del modelo dados los datos.

Además, es importante tener en cuenta que los datos podrían no estar adecuadamente descritos por una única distribución univariada. Las mezclas de distribuciones, como los modelos de mezcla gaussiana, pueden ser apropiadas. Dependiendo de la aplicación, los estimadores de densidad del kernel, que no intentan ajustar los datos a una distribución univariada y en su lugar construyen una distribución basada en los datos, podrían ayudar.

Es sorprendente que nadie haya citado pruebas de bondad de ajuste. Dos ejemplos de tales pruebas son la prueba de chi-cuadrado y la prueba de Kolmogorov-Smirnov (KS). Usted prueba si se puede suponer que los datos siguen una distribución de probabilidad particular. La hipótesis nula es que los datos son una muestra de la distribución probada, y la hipótesis alternativa es que no se puede suponer que los datos son una muestra de la distribución probada. Las estadísticas de prueba son algunas “medidas de distancia” entre los valores observados y los valores teóricos. Por ejemplo, la estadística de prueba KS es la diferencia máxima entre la distribución acumulativa empírica (es decir, de los datos) y la distribución acumulativa teórica (es decir, del modelo de probabilidad asumido). KS es una prueba muy confiable.

En general, estas pruebas rechazarán la hipótesis nula si tiene muestras pequeñas, incluso si su muestra se origina en la distribución probada. Esto es, tienen una alta tasa de error tipo II en el caso de muestras pequeñas. La razón es que las muestras pequeñas en general no se parecen a su distribución de población. Puede hacer el experimento de simular muestras pequeñas (n <20) a partir de la distribución normal y trazar el histograma, no se verán como una forma de campana. Esto también muestra el riesgo de asumir una distribución particular al observar pequeñas muestras. En otras palabras, estas pruebas son más potentes para muestras grandes (quizás muy grandes, como n> 500). En esta era de “grandes datos”, las muestras grandes no serían un problema en algunos contextos, por lo que es aconsejable utilizar una prueba de bondad de ajuste y puede enriquecer el análisis de datos.

La respuesta simple es hacer histogramas y diagramas de dispersión y observarlos. Utilice las características de los datos (variable discreta? Variable continua? ¿Variable continua no negativa?) Para limitar la elección de las distribuciones. Finalmente, encuentre una distribución que se ajuste mejor a los datos o que maximice la probabilidad de los datos. Tenga cuidado de no sobreajustar los datos, utilice el buen juicio: el objetivo de la distribución es simplificar los datos en su mente. Las medidas como AIC, BIC y DIC tolerarán más parámetros de los que su mente permitiría.

Si desea comprender cómo surgieron las distribuciones, siga leyendo.

La mayoría de las distribuciones surgen cuando corrige restricciones y maximiza la entropía. El desafío de las distribuciones es cómo ser máximamente incierto mientras está restringido, cómo ser reacio al riesgo cuando su utilidad es pérdida de registro.

Por ejemplo:

  • La distribución uniforme surge cuando fija el mínimo y el máximo y luego maximiza la entropía.
  • distribución normal: media fija y norma L2 (varianza o desviación estándar)
  • Distribución de Laplace: media fija y norma L1
  • Distribución t o distribución Cauchy: media fija y (1 + log L2) norma – permitiendo la “cola pesada”

La lista continúa, y puedes ver más sobre esto en la página de Taneja http://www.mtm.ufsc.br/~taneja/b … El arte de construir distribuciones parece haberse olvidado, pero la mecánica subyacente es simple, y con computadoras poderosas que ejecutan MCMC ya no tenemos que preocuparnos si es analítico o no.
Entonces, para responder a su pregunta, debe pensar qué restricciones podrían gobernar el fenómeno que está estudiando y cómo expresarlas.

More Interesting

¿Cuál es el mejor instituto de capacitación en ciencia de datos en NCR?

¿Qué tan importante es el lenguaje de programación R hoy en día? ¿Debo continuar tomando un curso que enseñe el aprendizaje automático a través de la programación R, o ir al curso convencional de aprendizaje automático de Stanford?

¿Cuáles son los mejores 3 institutos de capacitación en el aula para un curso de ciencia de datos con certificación en Hyderabad?

¿Qué instituto es mejor para el curso de ciencia de datos en Bangalore?

¿Existe alguna mejor práctica o técnica para modelar bases de datos / conjuntos de datos para big data y / o aprendizaje automático?

¿Qué es la secuencia de clics?

¿Cuál es el futuro del big data en India?

¿Cuáles son algunos métodos básicos / comunes utilizados para resumir datos?

Cómo mostrar que dos conjuntos de datos tienen distribuciones diferentes

¿Cuáles son buenas técnicas de aumento de datos para un conjunto de datos de imágenes pequeñas?

Quería ser un científico de datos, pero desde que me uní a la industria justo después de los estudiantes universitarios, no obtengo ese tipo de roles. Ir a un MS es muy difícil ahora que ya he pasado algunos años en la industria del software. ¿Qué tengo que hacer?

¿Debo dominar Java o Python para una carrera de ingeniería de datos?

¿Cómo son las estadísticas generadas por los canales en los partidos de la Copa Mundial de la CCI que dicen: "India ha ganado todos sus partidos si batean primero y suman más de 270 +" / "India ha ganado todos sus partidos donde Kohli anotó> 100"?

¿Cuáles son las oportunidades de investigación para MS Data Science en la Universidad de Minnesota, Twin Cities?

Explique qué clasificación de datos se encuentra en la redacción de informes técnicos.