Teoría de la información: ¿por qué hay una mayor probabilidad asociada con menor información?

Esta afirmación (que una mayor probabilidad está asociada con menor información) no es necesariamente cierta (o al menos no precisa).

Es útil pensar en la entropía como la cantidad de incertidumbre en el sistema. En otras palabras, cuántos bits de información necesita comunicar para especificar el estado de su sistema. Si solo tiene 2 estados, no necesita más de 1 bit (estado uno o estado dos).

Considere el caso más simple y famoso: lanzar una moneda con sesgo b (en la gráfica el eje x) donde el sesgo representa la probabilidad de caras. H (X) representa la entropía (o ignorancia / incertidumbre).

Ahora, volviendo a tu pregunta. Como puede ver en el gráfico, la cantidad de información que necesita para eliminar la incertidumbre en el sistema es máxima cuando la moneda es justa. Esto tiene sentido porque ese es el caso en el que es menos capaz de predecir qué estado asume el sistema. A medida que avanza desde un sesgo alto hacia una cola (donde está casi seguro de que siempre obtiene colas), hacia una moneda justa (donde no está seguro de qué lado aparecerá), aumenta su incertidumbre . Desde allí hasta el otro extremo del espectro, aumentar la probabilidad disminuye la información que necesita comunicar (como puede estar sugiriendo). La razón es simple, cuanto más probable (en relación con otros) sea un evento, menos incierto es sobre el estado del sistema. En el caso más extremo, cuando la probabilidad de un estado particular es 1 (y recuerde que la suma de probabilidades no puede ser mayor que 1), entonces no hay incertidumbre en el sistema y no necesita información para comunicar el estado del sistema.

Te daré un ejemplo que quizás quieras tener en cuenta y preguntarte si responde a tu pregunta. Digamos que tengo dos monedas conmigo, una que lanza cara con probabilidad 0.99 y la otra que lanza cara con probabilidad 0.5.

Si lanzo ambas monedas al aire simultáneamente y le pido que apueste por esa moneda que le dará cara, ¿a cuál apostaría? ¿No sería el que aterriza cabezas con probabilidad 0.99?

¿Qué te hizo tomar la decisión anterior? Fue porque la moneda con mayor probabilidad de caras ya te ha dejado con tan poca incertidumbre que apenas te sorprenderá si aterriza caras. Por otro lado, si adivina que la moneda que cae cara con probabilidad 0.5 caerá cara arriba, y de hecho lo hace, ¡se sentirá muy feliz de que su suposición se haya hecho realidad!

¡La verdadera alegría está en las sorpresas! Cuanta más sorpresa, más información … ¿Ves por qué la primera moneda (0,99 caras) es menos interesante (y por lo tanto menos informativa) que la otra?

More Interesting

¿Cómo son útiles las redes neuronales convolucionales para las empresas e industrias normales?

En la capacitación de CNN, ¿también se actualizan los pesos correspondientes al mapa de características?

¿Por qué un niño de 6 años puede realizar tareas de reconocimiento de objetos mejor que una red neuronal distribuida a gran escala con decenas de miles de núcleos de CPU, pero incluso un cerebro adulto no puede competir con un procesador anticuado cuando se trata de cálculos de procedimientos? ¿Qué falta en nuestro procesador?

¿Cómo se puede diseñar la topología de una red neuronal artificial con una capa oculta para lograr efectivamente la reducción de la dimensionalidad?

¿Qué implementaciones de la capa convolucional utiliza la biblioteca CuDNN para optimizar el rendimiento de la velocidad? Por ejemplo, ¿cambia entre implementaciones dependiendo del tamaño del filtro?

Kaggle: ¿Cuáles son las técnicas utilizadas para reducir el número de columnas antes de predecir la variable dependiente? Por favor vea la descripción

¿Es el "grado de libertad" en el aprendizaje automático igual al número de variables independientes o el número de parámetros?

¿Recomendaría un MBA de una escuela superior o un doctorado en Aprendizaje automático de una escuela superior?

¿Son buenos los cursos de Machine Learning AZ y Deep Learning AZ de Kirill Eremenko en Udemy?

Cómo optimizar la clasificación de varias clases si ya conozco el número de ocurrencias de cada clase en el conjunto de datos de prueba

¿Cómo pudo Mark Zuckerberg implementar algoritmos de aprendizaje automático a la edad de 14 años?

¿Qué significa decir que dos clasificadores son independientes?

Cómo elegir el modelo correcto con la distribución correcta

¿Por qué el artículo de DeepMind sobre el aprendizaje de refuerzo (jugar juegos de atari) ganó popularidad estelar?

¿Es Kafka la mejor solución para crear una aplicación de visión por computadora?