¿Qué es la perplejidad en el análisis bayesiano?

No es solo un término bayesiano, se aplica a cualquier modelo que haga predicciones probabilísticas. Es la entropía cruzada entre la distribución predicha y la distribución verdadera o la distribución observada.

Por ejemplo, supongamos que tengo un modelo que predice la probabilidad de lluvia al día siguiente. Tengo una serie temporal de predicciones que podrían parecer 10%, 10%, 30%, 80%, 40%, 10%, 10%; y también sé qué días llovió, digamos el segundo, tercer y cuarto día.

No puedo calcular la perplejidad, ya que no sé cuál era la verdadera probabilidad de lluvia cada día (es posible que ni siquiera sea capaz de definir eso). Pero puedo estimar la perplejidad como lo opuesto al promedio de los logaritmos de base 2 de la probabilidad estimada de eventos que ocurrieron. En este caso, las probabilidades fueron 90%, 10%, 30%, 80%, 60%, 90% y 90%. En los días que llovió, usé la probabilidad pronosticada de mi modelo, en los días en que no llovió, usé uno menos la probabilidad del modelo.

Lo opuesto a los logaritmos de base 2 de mis probabilidades son 0.2, 3.3, 1.7, 0.3, 0.7, 0.2 y 0.2, que promedian 0.9. Cuanto menor sea el número, mejor será mi modelo. Supongamos que otro modelo da probabilidades 40%, 60%, 60%, 60%, 40%, 40% y 40%. Es correcto todos los días, en el sentido de que su resultado más probable ocurre cada día. Pero es menos informativo, ya que nunca proporciona estimaciones a más del 10% del 50%. ¿Es mejor? Según la perplejidad estimada, sí. Todos los días ocurrió un evento del 60%, y lo opuesto al logaritmo de base 2 del 60% es 0.7, menor que mi 0.9.