¿Cómo debo interpretar la probabilidad bayesiana?

La filosofía básica del enfoque bayesiano es actualizar sus creencias anteriores en función de los datos experimentales (u observacionales), para terminar con creencias posteriores que deberían ser más sólidas, ya que se basan en evidencia adicional (es decir, los datos producidos por su experimento u observación).

Yendo un poco más profundo, el enfoque bayesiano de la inferencia se basa en trabajar con distribuciones de probabilidad en todos los rangos de los parámetros de interés, en lugar de solo valores únicos.

En ese sentido, las estadísticas bayesianas mantienen una “visión periférica” ​​más amplia hacia un rango de valores posibles para el parámetro de interés, en lugar de llevar una “visión de túnel” al valor más probable basado en los datos disponibles.

Dicho de otra manera, el enfoque bayesiano considera que hay más en la inferencia que la evidencia producida por el presente experimento u observación sola, y que lo que aportan los nuevos datos es otro cincel basado en evidencia para una forma de creencia que existía de antemano.

Como ejemplo, supongamos que está tratando de inferir la media de algún parámetro de población basándose en la observación de una muestra de esa población (digamos la altura de los humanos):

– El enfoque frecuentista mediría el promedio de la muestra e inferiría que el valor más probable para la media de la población es el valor del promedio de esa muestra que acaba de medir. En función de los supuestos de la distribución de las alturas, también puede establecer un intervalo de confianza (p. Ej., 95%) para el parámetro objeto de su inferencia (altura media).

El intervalo de confianza dice que si pudiera repetir el experimento una gran cantidad de veces (es decir, tomar muestras de la población una gran cantidad de veces y calcular los intervalos de confianza correspondientes para la altura humana), entonces los intervalos correspondientes incluirían el valor verdadero del parámetro aproximadamente el 95% del tiempo. Tenga en cuenta que esto es diferente de decir que el intervalo que obtuvo de su experimento u observación real contiene el valor verdadero con un 95% de confianza (lo que no tiene sentido en el contexto frecuentista porque este intervalo único lo contiene o no … )

– En cambio, el enfoque bayesiano le indicaría cuáles eran las probabilidades iniciales de varios valores para la altura media antes del experimento de muestreo u observación. Por ejemplo, diría que cree que la altura media de toda la población puede tomar cualquier valor entre 5 pies y 6 pies, todo igualmente probable (es decir, la altura media de la población se distribuye uniformemente en el rango entre 5 pies y 6 pies) .

Luego calcula una distribución de probabilidad posterior para la media de la población combinando adecuadamente la distribución anterior (por ejemplo, uniforme en el rango de 5 pies a 6 pies) con los datos observados, y termina con una distribución posterior actualizada para la media de la población. Por ejemplo, ahora creería que la media real de la población tiene probabilidades que se forman con un pico cercano al promedio de la muestra medida, en lugar de la forma plana anterior que decía que cualquier valor entre 5 pies y 6 pies era igualmente probable altura media de la población

Entonces, ¿de dónde viene la distribución previa?

Dependiendo de las circunstancias, podría ser una creencia subjetiva basada en la intuición o la experiencia, o podría ser la acumulación de algunas creencias subjetivas iniciales en el momento de la génesis aumentadas con los resultados de muchas inferencias experimentales u observacionales. En otras palabras, el previo del último experimento podría ser el posterior después de un conjunto completo de ejercicios de recolección de datos e inferencia.

A los críticos del enfoque bayesiano les disgusta el hecho de que requiere una declaración subjetiva inicial de la distribución previa del parámetro de interés (en los albores del tiempo, por así decirlo), debido a la percepción de arbitrariedad de una piedra angular del edificio posterior. . También a veces señalan que los bayesianos a menudo eligen prioritarios “no informativos” (es decir, distribuciones de probabilidad planas para los anteriores), lo cual es un poco una evasión …

Los practicantes bayesianos replican que todas las formas de inferencia hacen suposiciones sobre la distribución que rige los datos de la población en sí (gaussiana, poisson, binomial, etc.).
Señalan que tales suposiciones en torno a la distribución de la población no son menos arbitrarias que permitir el hecho de que el parámetro de interés de la distribución (media, desviación estándar, etc.) podría tomar un rango de valores ponderados por alguna distribución de probabilidad que necesita un previo .

Cuando la cantidad de datos en una muestra no es grande, el enfoque bayesiano a menudo puede conducir a mejores resultados porque esencialmente aporta el beneficio de cualquier sabiduría previamente acumulada (resultados de creencias iniciales más todas las pruebas previas), en lugar de confiar solo en datos escasos. Incluso los antecedentes un tanto no informativos podrían servir para amortiguar las inferencias espurias hechas a partir de tamaños de muestra que son demasiado pequeños para confiar con confianza en las leyes de grandes números o teoremas de límites centrales.

Por último, una de las desventajas anteriores de las estadísticas bayesianas fue que rápidamente se topó con fórmulas e integrales que no tenían formas cerradas fáciles, haciéndolas prácticamente inútiles, especialmente cuando el espacio de parámetros era multidimensional. Esto ha cambiado radicalmente con la capacidad de resolver estos desafíos computacionalmente, utilizando métodos de muestreo y simulación basados ​​en Monte Carlo.

Roland Acra ha dado una respuesta completa. La respuesta corta es que las probabilidades bayesianas pueden interpretarse como grados de creencia, a menudo sobre valores fijos que no pueden variar. Las probabilidades frecuentes, sin embargo, al menos en teoría, representan frecuencias relativas en una serie de ensayos donde los resultados pueden variar. Sin embargo, eso no es del todo cierto. A menudo usamos un modelo, pero las probabilidades dadas por el modelo representan teóricamente las frecuencias relativas aproximadas que hubiéramos obtenido si hubiéramos hecho suficientes pruebas.

No estoy seguro de entender lo que quieres decir exactamente, pero aquí hay un muy buen artículo sobre el Teorema de Bayes:

Yudkowsky – Teorema de Bayes

More Interesting

¿Por qué las GAN han tenido menos éxito con el texto que con las imágenes y el habla?

Redes neuronales artificiales: ¿Qué determina si un problema de clasificación no trivial para el aprendizaje profundo se puede dividir en capas convolucionales en lugar de capas completamente conectadas?

¿Qué tipo de big data se genera desde internet de las cosas? ¿Cómo recopilo esos datos? ¿Puedo aplicar el aprendizaje automático para encontrar patrones en los datos?

¿Cuáles son los proyectos de aprendizaje automático que puedo hacer para practicar y aprender como principiante?

¿Por qué no hay bloqueadores de anuncios impulsados ​​por el aprendizaje automático?

Desde la perspectiva de la ciencia de datos, ¿qué salió mal al predecir las elecciones presidenciales de 2016 en los Estados Unidos?

Cómo entrenar Word2Vec en un conjunto de datos personalizado

¿Cuáles son algunas técnicas comunes para el aumento de datos de video en el aprendizaje profundo?

¿Cuál es el mejor código comercial de reconocimiento facial?

¿Puedo usar TensorFlow sin tener experiencia con el aprendizaje automático?

¿Cómo probar formalmente que el producto de dos núcleos es un núcleo? Si K1 (x, x1) y K2 (x, x2) son ambas funciones del núcleo, entonces K1 (x, x1) K2 (x, x2) también es un núcleo

¿Cuál es la mejor manera de combinar filtrado colaborativo y recomendaciones basadas en contenido?

¿Es el número de nodos en una capa oculta más que la capa de entrada? ¿Es esto un problema? ¿Qué se puede aprender en tales redes neuronales?

Aprendizaje profundo: ¿Por qué la función energética de la máquina de Boltzmann restringida se define de la manera en que se define?

¿Cuáles son las diferencias entre hacer aprendizaje automático en la academia y en la industria?