¿Qué es la entropía cruzada en palabras fáciles?

La entropía cruzada mide el error de codificar un conjunto de símbolos usando una longitud no óptima.

Digamos que nuestro universo de posibles caracteres es (A, B, C, D) y tenemos un texto: (A, B) la codificación óptima es 1 bit para A y 1 bit para B. Si usamos una codificación ingenua suponiendo que todos los caracteres son igualmente probables que nuestras probabilidades son (1 / 4,1 / 4,1 / 4,1 / 4) y usamos 2 bits por cada carácter. Entonces podemos calcular la entropía cruzada como:

P (A) * largo (A) + P (B) * largo (B) + P (C) * largo (C) + P (D) * largo (D)

1/2 * 2 + 1/2 * 2 + 0 * 2+ 0 * 2 = 2 bits

Podemos comparar esto con la entropía óptima que es

1/2 * 1 + 1/2 * 1 = 1 bit

La entropía cruzada siempre está por encima de la entropía, por lo que puede usarse como una medida de error.

Espero que esto esté claro, si no, aquí hay un segundo intento:

La entropía cruzada es el cálculo de la entropía utilizando las probabilidades de los símbolos de acuerdo con su distribución, pero la longitud óptima de los símbolos en otra distribución.

De ahí la fórmula:

[matemáticas] Hx = – \ sum p_i * log_2 (q_i) [/ matemáticas]

En nuestro caso, p es (1 / 2,1 / 2,0,0) y q es (1 / 4,1 / 4,1 / 4,1 / 4) cuando q = p, entonces tiene la fórmula regular para la entropía y por lo tanto Hx es siempre más alto que H.

Luis

[matemáticas] [/ matemáticas]

Related Content

¿Cuál es la diferencia entre PyTorch, Caffe y TensorFlow?

¿Alguna vez has observado que la normalización por lotes en realidad ralentiza el entrenamiento?

¿Qué temas del conjunto de datos son buenos para interactuar?

En la regresión cuadrática, ¿por qué tengo que mantener una variable y su aumento exponencial en el mismo modelo?

¿Cuál es el algoritmo de búsqueda de patrones (o reconocimiento de patrones) más avanzado? ¿Como funciona?

¿Cómo podemos hacer un análisis de opinión para una revisión de película cuando no tenemos un conjunto de datos de capacitación?

¿Los ingenieros de aprendizaje automático en Google tienden a publicar artículos?

En términos simples, sin mucha jerga matemática, puede pensar en la entropía cruzada como cuánto es su error de clasificación total, que se basa en la probabilidad de que cada clase se clasifique cuando se aplica un modelo de clasificación.

Un excelente enlace para seguirlo con un ejemplo v.simple

https: //jamesmccaffrey.wordpress …

Luis Argerich

More Interesting

¿Cuáles son las diferentes áreas donde los bancos pueden usar NLP (procesamiento del lenguaje natural) para mejorar las operaciones comerciales?

¿El aprendizaje automático es un campo sobresaturado?

Para evaluar qué tan bueno es un hiperparámetro de red (por ejemplo, la tasa de deserción), ¿debo esperar a la convergencia?

¿Qué campo es el mejor, big data o machine learning?

¿Se siguen evaluando empíricamente las arquitecturas de redes neuronales profundas?

¿Dónde puedo encontrar el algoritmo para encontrar los otros nombres de la entidad popular?

¿Cuál es una buena manera de entender esta optimización mediante el uso de un multiplicador lagrangiano?

En una CNN, cuando la convolución se realiza entre 6 fuentes y 16 mapas como en LeNet, ¿cómo se hacen las convoluciones?

¿Qué significa realmente el valor semilla en el algoritmo de aprendizaje automático?

¿Cuál es la diferencia entre Bayes ingenuo y la entropía máxima?

¿Cuáles son los beneficios de convertir una capa totalmente conectada en una red neuronal profunda a una capa convolucional equivalente?

¿Qué es un clasificador transductivo?

¿Cuál es la diferencia entre la red neuronal profunda y la factorización de matriz profunda?

¿Qué herramientas están disponibles para extraer PCFG lexicalizados de un corpus analizado?

¿Cuáles son los algoritmos principales detrás de Google Translate?

Web Analytics