La filosofía básica del enfoque bayesiano es actualizar sus creencias anteriores en función de los datos experimentales (u observacionales), para terminar con creencias posteriores que deberían ser más sólidas, ya que se basan en evidencia adicional (es decir, los datos producidos por su experimento u observación).
Yendo un poco más profundo, el enfoque bayesiano de la inferencia se basa en trabajar con distribuciones de probabilidad en todos los rangos de los parámetros de interés, en lugar de solo valores únicos.
En ese sentido, las estadísticas bayesianas mantienen una “visión periférica” más amplia hacia un rango de valores posibles para el parámetro de interés, en lugar de llevar una “visión de túnel” al valor más probable basado en los datos disponibles.
- ¿Cuáles son algunas aplicaciones del aprendizaje semi-supervisado?
- ¿Cuáles son algunas de las funciones de uso común que se pueden extraer de la música con fines de aprendizaje automático?
- ¿Cuáles son las 8 principales cosas para las que las startups utilizan el aprendizaje automático?
- Dada una red de aprendizaje profundo, ¿se puede entrenar para enseñar (por ejemplo, resolviendo la secuencia óptima de ejemplos o lo que sea) otra red? Si es así, ¿se puede resolver este problema (enseñanza) utilizando técnicas de aprendizaje profundo?
- ¿Qué es la entropía cruzada en palabras fáciles?
Dicho de otra manera, el enfoque bayesiano considera que hay más en la inferencia que la evidencia producida por el presente experimento u observación sola, y que lo que aportan los nuevos datos es otro cincel basado en evidencia para una forma de creencia que existía de antemano.
Como ejemplo, supongamos que está tratando de inferir la media de algún parámetro de población basándose en la observación de una muestra de esa población (digamos la altura de los humanos):
– El enfoque frecuentista mediría el promedio de la muestra e inferiría que el valor más probable para la media de la población es el valor del promedio de esa muestra que acaba de medir. En función de los supuestos de la distribución de las alturas, también puede establecer un intervalo de confianza (p. Ej., 95%) para el parámetro objeto de su inferencia (altura media).
El intervalo de confianza dice que si pudiera repetir el experimento una gran cantidad de veces (es decir, tomar muestras de la población una gran cantidad de veces y calcular los intervalos de confianza correspondientes para la altura humana), entonces los intervalos correspondientes incluirían el valor verdadero del parámetro aproximadamente el 95% del tiempo. Tenga en cuenta que esto es diferente de decir que el intervalo que obtuvo de su experimento u observación real contiene el valor verdadero con un 95% de confianza (lo que no tiene sentido en el contexto frecuentista porque este intervalo único lo contiene o no … )
– En cambio, el enfoque bayesiano le indicaría cuáles eran las probabilidades iniciales de varios valores para la altura media antes del experimento de muestreo u observación. Por ejemplo, diría que cree que la altura media de toda la población puede tomar cualquier valor entre 5 pies y 6 pies, todo igualmente probable (es decir, la altura media de la población se distribuye uniformemente en el rango entre 5 pies y 6 pies) .
Luego calcula una distribución de probabilidad posterior para la media de la población combinando adecuadamente la distribución anterior (por ejemplo, uniforme en el rango de 5 pies a 6 pies) con los datos observados, y termina con una distribución posterior actualizada para la media de la población. Por ejemplo, ahora creería que la media real de la población tiene probabilidades que se forman con un pico cercano al promedio de la muestra medida, en lugar de la forma plana anterior que decía que cualquier valor entre 5 pies y 6 pies era igualmente probable altura media de la población
Entonces, ¿de dónde viene la distribución previa?
Dependiendo de las circunstancias, podría ser una creencia subjetiva basada en la intuición o la experiencia, o podría ser la acumulación de algunas creencias subjetivas iniciales en el momento de la génesis aumentadas con los resultados de muchas inferencias experimentales u observacionales. En otras palabras, el previo del último experimento podría ser el posterior después de un conjunto completo de ejercicios de recolección de datos e inferencia.
A los críticos del enfoque bayesiano les disgusta el hecho de que requiere una declaración subjetiva inicial de la distribución previa del parámetro de interés (en los albores del tiempo, por así decirlo), debido a la percepción de arbitrariedad de una piedra angular del edificio posterior. . También a veces señalan que los bayesianos a menudo eligen prioritarios “no informativos” (es decir, distribuciones de probabilidad planas para los anteriores), lo cual es un poco una evasión …
Los practicantes bayesianos replican que todas las formas de inferencia hacen suposiciones sobre la distribución que rige los datos de la población en sí (gaussiana, poisson, binomial, etc.).
Señalan que tales suposiciones en torno a la distribución de la población no son menos arbitrarias que permitir el hecho de que el parámetro de interés de la distribución (media, desviación estándar, etc.) podría tomar un rango de valores ponderados por alguna distribución de probabilidad que necesita un previo .
Cuando la cantidad de datos en una muestra no es grande, el enfoque bayesiano a menudo puede conducir a mejores resultados porque esencialmente aporta el beneficio de cualquier sabiduría previamente acumulada (resultados de creencias iniciales más todas las pruebas previas), en lugar de confiar solo en datos escasos. Incluso los antecedentes un tanto no informativos podrían servir para amortiguar las inferencias espurias hechas a partir de tamaños de muestra que son demasiado pequeños para confiar con confianza en las leyes de grandes números o teoremas de límites centrales.
Por último, una de las desventajas anteriores de las estadísticas bayesianas fue que rápidamente se topó con fórmulas e integrales que no tenían formas cerradas fáciles, haciéndolas prácticamente inútiles, especialmente cuando el espacio de parámetros era multidimensional. Esto ha cambiado radicalmente con la capacidad de resolver estos desafíos computacionalmente, utilizando métodos de muestreo y simulación basados en Monte Carlo.