¿Cuál es una buena manera de aprender acerca de los métodos bayesianos?

Usted pregunta, ¿por dónde empiezo?

Comience con algo simple, y lo que podría ser más simple que solo dos resultados posibles. Llame un éxito, el otro fracaso. No sabemos cuál podría ser la probabilidad [matemática] p [/ matemática] de éxito. Puede ser de 0 a 1.

¿Cómo podría tener una mejor idea de lo que podría ser [math] p [/ math]? Si puede realizar un experimento, obtendrá información. Experimentos repetidos de este tipo forman lo que se llama un proceso de Bernoulli.

Proceso de Bernoulli

Una única prueba [matemática] X [/ matemática] para un proceso de Bernoulli, llamada prueba de Bernoulli, termina con uno de dos resultados: éxito donde [matemática] X = 1 [/ matemática] y falla donde [matemática] X = 0. [/ math] El éxito ocurre con probabilidad [math] p [/ math] mientras que el fracaso ocurre con probabilidad [math] q = 1-p. [/ math]

El término proceso de Bernoulli es solo otro nombre para una muestra aleatoria de una población de Bernoulli. Por lo tanto, consiste en repetidos ensayos independientes de Bernoulli [math] \ mathbf X = (X_1, X_2,…, X_n) [/ math] con el mismo parámetro [math] p. [/ Math]

El problema para las estadísticas es determinar el valor de este parámetro [math] p [/ math]. Todo lo que sabemos es que se encuentra entre 0 y 1. También esperamos la relación [matemática] k / n [/ matemática] del número de éxitos [matemática] k [/ matemática] al número de ensayos [matemática] n [/ matemática] para acercarse a [matemática] p [/ matemática] como [matemática] n [/ matemática] se acerca a [matemática] \ infty [/ matemática], pero ese es un resultado teórico que no dice mucho sobre qué [matemática] p [ / math] es cuando [math] n [/ math] es pequeño.

La función de densidad previa

El enfoque bayesiano no es especificar qué [matemática] p [/ matemática] es, sino ponerle una distribución, es decir, asignar una función de densidad [matemática] f (p) [/ matemática]. Esta función [matemáticas] f [/ matemáticas] se denomina función de densidad previa.

Por ejemplo, puede asignar una distribución uniforme para [matemáticas] 1. [/ matemáticas] Eso haría que [matemáticas] f (p) = 1 [/ matemáticas] para todas las [matemáticas] p [/ matemáticas] en [0,1 ]

Alternativamente, si sabe algo sobre la situación, puede asignar algo que no sea una distribución uniforme. Si tiene razones para creer que [matemáticas] p [/ matemáticas] está cerca de 1/2, elegiría una función de densidad que se agrupe cerca de 1/2.

La muestra y la función de densidad posterior.

Ahora realice un experimento con valores para la muestra aleatoria [math] \ mathbf x = (x_1, x_2, \ ldots, x_n) [/ math]. Dado ese resultado, tenemos una función de densidad condicional [math] f (p | \ mathbf X {=} \ mathbf x), [/ math] que abreviaremos como [math] f (p | \ mathbf x). [/ matemáticas] Esa densidad se llama función de densidad posterior. Usando el teorema de Bayes para densidades, eso se puede encontrar en términos de las probabilidades condicionales inversas. Podemos afirmar eso como la proporción

[matemáticas] f (p | \ mathbf x) \ propto P (\ mathbf X {=} \ mathbf x | p) f (p). [/ math]

Por lo tanto, la función de densidad posterior es proporcional a una probabilidad condicional multiplicada por la función de densidad anterior

Supongamos, ahora, que hay éxitos [matemáticos] k [/ matemáticos] entre los ensayos [matemáticos] n [/ matemáticos]. Con nuestra convención de que [matemática] X_i = 1 [/ matemática] significa que la prueba [matemática] X_i [/ ​​matemática] terminó con éxito, eso significa que [matemática] k = x_1 + x_2 + \ cdots + x_n [/ matemática]. Luego

[matemáticas] P (\ mathbf X {=} \ mathbf x | p) = p ^ k (1 – p) ^ {nk}. [/ math]

Por lo tanto

[matemáticas] f (p | \ mathbf x) \ propto p ^ k (1 – p) ^ {nk} f (p). [/ matemáticas]

Por lo tanto, tenemos una fórmula para determinar la función de densidad posterior [matemática] f (p | \ mathbf x) [/ matemática] a partir de la función de densidad anterior [matemática] f (p) [/ matemática] basada en el número [matemática] k [/ math] de éxitos entre [math] n [/ math] ensayos.

Continuando con el caso del uniforme anterior

Veamos qué sucede si hubiéramos tomado la función de densidad previa como uniforme, constantemente 1 para [math] p [/ math] entre 0 y 1.

Esa última proporción para la función de densidad posterior implica que

[matemáticas] f (p | \ mathbf x) \ propto p ^ k (1 – p) ^ {nk}. [/ matemáticas]

Esa es una distribución Beta con parámetros [matemática] \ alpha = k + 1 [/ matemática] y [matemática] \ beta = n + 1-k [/ matemática]. Denotaré que [math] \ mathrm {Beta} (k + 1, n + 1 – k). [/ Math] Tenga en cuenta que nuestra distribución anterior, la uniforme, es en realidad la distribución beta [math] \ mathrm { Beta} (1,1). [/ Matemáticas]

Esto hace que los cálculos sean bastante fáciles. Comience con una distribución [math] \ mathrm {Beta} (1,1) [/ math]. Cada vez que obtenga un éxito, aumente el primer parámetro en 1, pero cada vez que obtenga un error, aumente el segundo parámetro en 1.

Si tuvo información adicional antes de comenzar, es fácil tener eso en cuenta cambiando los parámetros de la distribución Beta que elija para su anterior.

[Adaptado de mis notas de clase en la página en clarku.edu.]

Ejemplo de mesa de billar Bayes

El proceso que acabamos de completar es lo que hizo Thomas Bayes (1702-1761). Su trabajo, Un ensayo para resolver un problema en la doctrina de las posibilidades, se publicó en 1763 después de su muerte. Ilustra el problema con las bolas en una mesa de billar. Parafrasearé su ilustración usando la terminología que desarrollamos anteriormente.

Supongamos que una bola W se coloca en una mesa de billar de modo que “habrá la misma probabilidad de que descanse sobre cualquier parte igual del plano [rectángulo] como otra”. Supondremos que la longitud de la mesa es 1 y que el distancia de W desde un extremo, llámelo el extremo izquierdo, es [matemática] p [/ matemática]. No sabemos dónde se coloca W, por lo que nuestra distribución previa en [matemáticas] p [/ matemáticas] es uniforme, es decir, la función de densidad [matemáticas] f (p) = 1 [/ matemáticas] en el intervalo [0 , 1].

Luego suponga que otra bola O se coloca repetidamente al azar en la mesa [matemáticas] n [/ matemáticas] veces, y en [matemáticas] k [/ matemáticas] de estas ubicaciones, la bola O está más cerca del extremo izquierdo que la bola W. Dado ese resultado, ¿cuál es la distribución posterior de [matemáticas] p [/ matemáticas]? Acabamos de resolver la respuesta. La distribución previa para [math] p [/ math] fue uniforme en [0, 1]. Por lo tanto, la distribución posterior es [math] \ mathrm {Beta} (k + 1, n + 1-k). [/ Math]

Comentarios

Este fue solo un modelo simple con dos resultados. Hay otros modelos utilizados para modelar otras situaciones.

También fue solo el comienzo. Todavía no hemos utilizado este modelo para responder preguntas estadísticas.

Algunas funciones de densidad para distribuciones beta variadas

Hay muchos recursos en línea para aprender sobre las estadísticas bayesianas.
Dos de estos recursos que recomiendo, ya que los he usado hasta cierto punto son:

1. ‘Think Bayes’ de Allen B. Downey – Curso de introducción a las estadísticas bayesianas con un enfoque en calcularlas en Python.

Piensa Bayes

El libro está disponible en formato PDF en línea, así como también puede consultar el repositorio de github relacionado: AllenDowney / ThinkBayes

2. “Programación probabilística y métodos bayesianos para hackers” por Cam Davidson Pilon.

CamDavidsonPilon / Probabilistic-Programming-and-Bayesian-Methods-for-Hackers
Este libro, según lo descrito por el autor, es ‘Una introducción a los métodos bayesianos + programación probabilística con un punto de vista de computación / comprensión-primero, matemática-segundo. Todo en puro Python ‘.
Mira este también. Muy recomendable.

La gente dice la palabra “bayesiano” porque suena genial, moderno y como un descanso del pasado pesado, no porque el término tenga un significado particular o describa un cuerpo de conocimiento unificado.

Hablando de manera muy general, los métodos bayesianos son típicamente aquellos que se ocupan de evaluar o estimar una probabilidad condicional (una probabilidad “posterior” o “predictiva”), dada alguna observación y algunas suposiciones hechas a priori .

En la primera mitad del siglo XX, los estadísticos convencionales a menudo ridiculizaron técnicas como las aplicaciones inadecuadas de “probabilidad inversa”. Los métodos han regresado enormemente y ahora son muy populares para una amplia variedad de aplicaciones.

En algunos campos, como la psicología o la ciencia cognitiva, los autodenominados “bayesianos” son particularmente militantes, tal vez porque los métodos estadísticos tradicionales han sido aplicados excesivamente y dogmáticamente en esos campos por los practicantes de más edad. Los “bayesianos” en estos campos se ven a sí mismos como la nueva guardia que efectúa una revolución. Pero decir que quiere ser “un experto en todo lo Bayesiano” no es un objetivo realista, ya que “Bayesiano” se aplica con mayor frecuencia a cualquier método que implique la evaluación de una probabilidad condicional.

Una buena introducción general (y práctica) sería Gelman et al., “Bayesian Data Analysis”, 2d ed. http://www.amazon.com/exec/obido

También puede disfrutar de la polémica técnica del libro de ET Jaynes, “Probability Theory: The Logic of Science”, http://www.amazon.com/Probabilit

Este libro ha despertado un profundo interés en la probabilidad y las estadísticas para las hordas de lectores y es una lectura divertida y edificante.