Por ejemplo, en el caso en que mi distribución de probabilidad previa del parámetro se base en una muestra grande (vs pequeña), y mis datos actuales son pequeños, ¿cómo toma en cuenta el tamaño de muestra la inferencia bayesiana?

Estoy de acuerdo con Justin Rising y Fred Feinberg. Sin embargo, profundicemos en esto, es diferente de la forma en que Fred lo aborda. ( Editar: Debo decir que tanto Fred como Justin establecen la probabilidad [matemática] P (datos | \ theta) [/ matemática] en lugar de la posterior [matemática] P (\ theta | datos) [/ matemática]. Declaración de Justin funciona para la probabilidad y la posterior, aunque la primera no depende de la anterior. Fred parece estar hablando de la posterior).

Usted declara que su previo se basa en una muestra grande: por lo tanto, posiblemente, tuvo un previo, recopiló una gran cantidad de datos, actualizó el posterior con los datos y ahora está usando ese posterior como el anterior para el pequeño conjunto de datos. O algo similar.

Hay muchas maneras en que esto podría funcionar. Probablemente tengas un previo bastante explícito de esa gran porción de datos. Con datos pequeños como la actualización, esto generalmente significa que lo anterior afectará más a lo posterior que la actualización. Y eso puede ayudar u obstaculizar, dependiendo de lo que esté haciendo y de cómo son los datos. Consideremos algunos casos.


Caso 1: los datos antiguos y los datos nuevos son “similares” en las formas que importan. (Es decir, en términos de la función de probabilidad para cualquier conjunto de parámetros dado). Entonces, realmente no importa los tamaños relativos del conjunto de datos.

Caso 2: los conjuntos son diferentes en algunos aspectos. Esto tiene algunos casos secundarios:

Caso 2A: los datos antiguos son más indicativos del estado verdadero de los datos (o datos futuros si este es un problema de predicción). Entonces, desea mantener el análisis tal como está. La fuerza de lo anterior permitirá que los datos antiguos dominen los datos posteriores en lugar de los nuevos.

Caso 2B: los datos antiguos “capturan completamente” el estado verdadero / lo que sea, y los datos nuevos son irrelevantes. Luego descarte los nuevos datos y conserve los anteriores.

Caso 2C: los nuevos datos son más indicativos del estado verdadero / lo que sea de los datos. Entonces quieres hacer tu anterior más difuso. Por ejemplo, puede hacer que su prior original (para los datos antiguos) sea más difuso antes de crear el nuevo prior desde el posterior, muestree los datos antiguos con el mismo previo … de muchas maneras. Tendría que pensar en el método más apropiado en las circunstancias.

Caso 2D: los nuevos datos “capturan completamente” el estado verdadero / lo que sea, en cuyo caso, es mejor que comience de nuevo con el original anterior y cree el posterior solo con los nuevos datos.

El problema es que es poco probable que alguna vez sepa qué caso se cumple (aunque 1 y 2 son más fáciles de diferenciar), y tampoco hay datos que capturen completamente el “estado verdadero” (es por eso que hubo citas sobre captura completa antes) Además, es posible que no exista un estado verdadero y exacto, una de las cosas que podemos capturar utilizando estadísticas bayesianas).

Entonces, ¿cuál es la comida para llevar? Ten cuidado. Su prior va a afectar mucho más al posterior debido a los grandes ajustes de datos que a los nuevos datos. Podría medir de varias maneras qué tan diferentes serían los posteriores (es decir, podría usar una medida de divergencia, como Kullback-Liebler) … solo piense en lo que es apropiado en su caso.

Justin Rising tiene toda la razón: P (datos | Ө) depende del número de observaciones. A medida que Ө cambia de valores “buenos” a valores menos buenos, P (datos | Ө) se cae muy rápidamente para conjuntos de datos grandes, menos para los más pequeños. Esto significa que los algoritmos de muestreo bayesianos serán menos propensos a visitar regiones de baja densidad durante Ө cuando hay muchos datos, lo cual es otra forma de decir que obtendrá un posterior más ajustado (en teoría; su modelo podría estar muy equivocado, y los datos serán “débilmente informativos” para algún parámetro de interés).

P (datos | Ө) depende de la cantidad de observaciones que tenga después de haber formado su anterior.