¿Qué es la perplejidad en el análisis bayesiano?

No es solo un término bayesiano, se aplica a cualquier modelo que haga predicciones probabilísticas. Es la entropía cruzada entre la distribución predicha y la distribución verdadera o la distribución observada.

Por ejemplo, supongamos que tengo un modelo que predice la probabilidad de lluvia al día siguiente. Tengo una serie temporal de predicciones que podrían parecer 10%, 10%, 30%, 80%, 40%, 10%, 10%; y también sé qué días llovió, digamos el segundo, tercer y cuarto día.

No puedo calcular la perplejidad, ya que no sé cuál era la verdadera probabilidad de lluvia cada día (es posible que ni siquiera sea capaz de definir eso). Pero puedo estimar la perplejidad como lo opuesto al promedio de los logaritmos de base 2 de la probabilidad estimada de eventos que ocurrieron. En este caso, las probabilidades fueron 90%, 10%, 30%, 80%, 60%, 90% y 90%. En los días que llovió, usé la probabilidad pronosticada de mi modelo, en los días en que no llovió, usé uno menos la probabilidad del modelo.

Lo opuesto a los logaritmos de base 2 de mis probabilidades son 0.2, 3.3, 1.7, 0.3, 0.7, 0.2 y 0.2, que promedian 0.9. Cuanto menor sea el número, mejor será mi modelo. Supongamos que otro modelo da probabilidades 40%, 60%, 60%, 60%, 40%, 40% y 40%. Es correcto todos los días, en el sentido de que su resultado más probable ocurre cada día. Pero es menos informativo, ya que nunca proporciona estimaciones a más del 10% del 50%. ¿Es mejor? Según la perplejidad estimada, sí. Todos los días ocurrió un evento del 60%, y lo opuesto al logaritmo de base 2 del 60% es 0.7, menor que mi 0.9.

Aprendizaje automáticoestadísticasInferencia bayesianaRedes bayesianas

Related Content

¿Dónde puedo encontrar un buen tutorial para la red neuronal de convolución regional?

¿Vale la pena un doctorado en CS si no planea ingresar a la academia?

¿Cuánto del aprendizaje automático es en realidad solo optimización?

¿Cuál es la explicación de la causa de la explosión y desaparición del gradiente de red neuronal recurrente RNN?

¿Cuáles fueron algunos de los artículos de conferencias / revistas de investigación del discurso más interesantes / dignos de mención en 2012?

¿Cuál es la mejor CPU AMD de presupuesto para emparejar con la RX 470?

¿Explicar los diversos modos de software en la nube como un servicio (SaaS) entorno

More Interesting

¿Cuáles son las principales diferencias entre PNL para chino y PNL para inglés?

¿A qué tipo de problemas del mundo real se aplica el aprendizaje no supervisado?

¿Cuáles son los buenos pesos iniciales en una red neuronal?

¿Existen trabajos de Ciencia de datos y Aprendizaje automático para estudiantes de primer año en India?

Cómo calcular la similitud de coseno entre tweets

Para un maestro en aprendizaje automático, ¿cuál sería una mejor opción, KTH (MS en aprendizaje automático) o Chalmers (MS en sistemas adaptativos complejos)?

¿Se puede extraer información significativa de datos hash para el aprendizaje automático?

Cómo leer esta arquitectura de red neuronal convolucional

¿Qué tan cerca estamos del punto donde los radiólogos serán reemplazados por software de reconocimiento de imágenes / redes neuronales / IA?

¿Se recomienda que un desarrollador Java experimentado aprenda y pase al aprendizaje automático? ¿Qué tan difícil / fácil es?

¿Cuáles son actualmente los temas candentes en la investigación de aprendizaje automático y en aplicaciones reales?

Cómo corregir el sobreajuste

¿Cuál es la diferencia entre SVM y ANN?

¿Qué método de aprendizaje automático es adecuado para aprender una estrategia comercial no explícita?

¿El descenso de gradiente de lote completo, con potencia de computadora ilimitada, es siempre mejor que el descenso de gradiente de mini lote?

Web Analytics