¿Cuál es la relación entre el modelo Log Linear, el modelo MaxEnt y la regresión logística?

La respuesta corta es: no hay diferencias reales entre un modelo MaxEnt y una regresión logística. Ambos son modelos lineales logarítmicos.

Y ahora, la respuesta larga:
La regresión logística es un modelo probabilístico para casos binomiales. MaxEnt generaliza el mismo principio para casos multinomiales.

En ambos modelos, queremos una probabilidad condicional:
donde [math] y [/ math] es la clase objetivo y [math] \ mathbf {x} [/ math] es un vector de características.

La regresión logística sigue una distribución binomial . Por lo tanto, podemos escribir la siguiente función de masa de probabilidad:

donde [math] \ theta [/ math] es el vector de parámetros y [math] h_ \ theta (\ mathbf {x}) [/ math] es la hipótesis:

La función de masa de probabilidad puede reescribirse de la siguiente manera:

Utilizamos la máxima probabilidad logarítmica para las observaciones [matemáticas] N [/ matemáticas] para estimar los parámetros:

Y la derivada parcial para un parámetro dado es:

El modelo MaxEnt usa el mismo principio pero siguiendo una distribución multinomial . Por lo tanto, podemos escribir la siguiente función de masa de probabilidad para las clases [matemáticas] C [/ matemáticas]:

Aquí, tenemos un vector de parámetros y una hipótesis por clase. Cada hipótesis es una función softmax:

La función de masa de probabilidad puede reescribirse de la siguiente manera:

De manera similar a la regresión logística, se utiliza una probabilidad de registro máxima para estimar [matemáticas] \ theta [/ matemáticas]:

Y su derivada parcial correspondiente es:

Y podemos ver que el modelo MaxEnt es una generalización de la regresión logística a las clases [matemáticas] C [/ matemáticas]. En ambos casos, comparamos las expectativas observadas (del conjunto de entrenamiento) con las expectativas del modelo (calculadas con parámetros). Y el gradiente es la diferencia de estos términos.

El nombre de modelo log-lineal a veces se usa porque en una escala logarítmica, esos modelos son lineales. Es más evidente para el modelo MaxEnt:

El primer término es lineal en el espacio de características. Y dado que el segundo término es la constante de normalización, depende solo de [math] \ mathbf {x} [/ math]. Puede encontrar un truco para calcular eficientemente esta constante aquí: http: //lingpipe-blog.com/2009/06…

¿Un pequeño porcentaje de datos incorrectos (digamos entre 1% y 5%) en el conjunto de datos de entrenamiento impacta significativamente la efectividad del entrenamiento de una red neuronal?

¿Debo aplicar PCA antes o después de la selección de funciones?

Como estudiante de informática, estoy muy interesado en extraer datos de los mercados bursátiles. ¿Cómo puede ayudarme el aprendizaje automático / minería de datos?

¿Qué enfoques / regulaciones se utilizan para manejar el 'problema mínimo / máximo local' cuando se usa el descenso de gradiente con redes neuronales profundas?

¿Existe algún documento / tesis / investigación que demuestre que RegEx no debe usarse para el análisis HTML y que en su lugar debe usarse un analizador XML?

Conciencia del contexto: ¿Qué es el descubrimiento de noticias anticipatorio?

Quiero agregar a la respuesta de Jean-Phillipe. Como explica su respuesta, la regresión logística multinomial, los modelos log-lineales y el clasificador MaxEnt se refieren a lo mismo. Quiero explicar cómo la elección de un modelo logarítmico lineal está justificada por el principio más general de entropía máxima .

El Principio de máxima entropía nos dice que si queremos encontrar algún modelo probabilístico, y tenemos alguna restricción comprobable, debemos observar todos los modelos consistentes con esa restricción, y elegir el modelo que contenga la menor “información adicional”, donde la entropía es la formalización matemática de la información. Esto tiene sentido, ya que proporcionar más restricciones debería permitirnos transmitir más información en nuestro modelo elegido, pero el modelo no debe transmitir ninguna información más allá de las restricciones que le proporcionamos.

Como un ejemplo simple, cuando tenemos resultados discretos, la entropía se maximiza mediante la distribución uniforme. Si estuviéramos hablando del resultado de una tirada de dados, y no supiéramos nada más, deberíamos dar probabilidad [matemática] 1/6 [/ matemática] a cada número. Si supiéramos que el resultado fue más de 3, entonces deberíamos eliminar todos los modelos que dan probabilidad positiva a los resultados 1, 2 o 3, y de las distribuciones posibles restantes, la distribución con mayor entropía da [matemática] 1/3 [ / matemática] probabilidad de cada uno a 4,5 y 6.

Por lo general, se considera que la regresión logística predice una distribución de probabilidad condicional [matemática] p (y | x) [/ matemática]. Antes de llegar a la regresión logística, explicaré cómo la entropía máxima nos da un modelo para una distribución de probabilidad no condicionada [matemática] p (x) [/ matemática], y luego explicaré cómo están relacionados.

Para hacer esto más concreto, imaginemos que tenemos un conjunto de datos [matemático] D [/ matemático] de imágenes de MNIST binarizado (32 × 32 imágenes de dígitos, donde cada píxel es 0 para negro o 1 para blanco). Queremos asignar probabilidades a nuevas imágenes. Si dejamos que [math] X [/ math] represente el espacio de todas las imágenes binarias 32 × 32 posibles, queremos una distribución de probabilidad [math] p (X) [/ math].

Ahora la pregunta es cómo restringir esta distribución de probabilidad. Una cosa que podríamos hacer es restringir nuestra distribución de probabilidad para que coincida con la distribución empírica. Sin embargo, esta es una mala elección, ya que si volteamos incluso un solo píxel en una imagen de entrenamiento, asignamos probabilidad 0 a la nueva imagen. Por lo tanto, queremos algún tipo de suavidad en algún espacio semántico. Entonces, supongamos que tenemos un montón de extractores de características deterministas [math] f_j [/ math] (elija su extractor de características favorito). Ahora, podemos usar una restricción más relajada: queremos que la expectativa de cada característica en la distribución empírica coincida con la expectativa de la característica en la distribución de nuestro modelo. Este es un ejemplo del método de los momentos, ya que estamos viendo la distribución marginal de [math] f_j [/ math] bajo la distribución empírica y la distribución de nuestro modelo, y diciendo que queremos el primer momento (la expectativa) para ser el mismo debajo de cada uno (esta es una técnica común en los métodos de máxima entropía).

Matemáticamente, esto es

[matemáticas] \ sum_ {x \ en X} {f_j p_D (x)} = \ sum_ {x \ en X} {f_j p_M (x)} [/ matemáticas]

[matemática] p_D (x) = 1 / | D | [/ matemática] si [matemática] x \ en D [/ matemática], de lo contrario [matemática] 0 [/ matemática]

y [math] p_M [/ math] es la distribución de probabilidad que buscamos. Como es una distribución de probabilidad, tenemos

[matemáticas] \ sum_ {x \ en X} p_M (x) = 1 [/ matemáticas]

Entonces, ahora que tenemos nuestras restricciones, el principio de máxima entropía nos dice que maximicemos

[matemáticas] – \ sum_ {x \ en X} {p_M (x) \ log p_M (x)} [/ matemáticas]

sujeto a estas restricciones. Podemos hacer esto usando lagrangianos:

[matemáticas] L = \ sum_ {j} \ lambda_j \ sum_ {x \ in X} f_j (p_D (x) – p_M (x)) + \ lambda_0 (\ sum_ {x \ in X} p_M (x) – 1 ) – \ sum_ {x \ in X} {p_M (x) \ log p_M (x)}. [/ math]

Sin entrar en detalles, las derivadas parciales que desaparecen en el óptimo del problema sin restricciones también desaparecen para el lagrangiano en el óptimo, por lo que tenemos

[matemática] \ frac {\ delta L} {\ delta p_M (d_i)} = 0 [/ matemática] donde [matemática] p_M (d_i) [/ matemática] es la probabilidad asignada por el modelo a la [matemática] i ^ {th} [/ math] observación en [math] D [/ math]. Tenga en cuenta que nuestra representación de [math] p_M [/ math] es tabular: solo nos dice la probabilidad asignada en cada punto de datos observado. Veremos cómo podemos introducir naturalmente el suavizado más adelante.

Expandiendo la derivada anterior:

[math] (\ sum_ {j} – \ lambda_j * f_j) + \ lambda_0 – (\ log p_M (d_i) + 1) = 0 [/ math] para todos [math] j, i [/ math].

[matemáticas] p_M (d_i) = e ^ {\ sum_ {j} – \ lambda_j * f_j} / e ^ {1- \ lambda_0} [/ matemáticas]

En resumen, la distribución de entropía máxima que satisface nuestras restricciones anteriores debe satisfacer esta última ecuación en cada punto de entrenamiento. Convenientemente, esta expresión es log-lineal, es decir, [math] \ log p_M (d_i) [/ math] es proporcional a la suma ponderada de las características, donde [math] \ lambda_0 [/ math] puede usarse para controlar el constante de normalización, de modo que la distribución sume a 1. Como se prometió, esto proporciona una noción muy natural de suavidad en el espacio de características, ya que podemos usar la misma expresión para [math] p_M (x) [/ math] incluso para puntos fuera Los datos de entrenamiento.

Volviendo a la regresión logística multinomial, queremos modelar [math] p (y | x) [/ math] donde [math] y [/ math] es una etiqueta de clase, y [math] x [/ math] generalmente proviene de Un espacio de alta dimensión.

Habiendo presentado por qué la distribución de entropía máxima toma una forma logarítmica lineal, ¿cómo podemos extender esto a una distribución condicional? La idea es usar [matemáticas] p (x, y) = p (x) p (y | x) [/ matemáticas] y luego restringir la expectativa de cada característica en [matemáticas] p (x, y) [/ matemáticas] de la misma manera que lo hicimos en [matemáticas] p (x) [/ matemáticas] anteriormente. Es decir, en lugar de

[matemáticas] \ sum_ {x \ en X} {f_j p_D (x)} = \ sum_ {x \ en X} {f_j p_M (x)} [/ matemáticas]

ahora tenemos

[matemáticas] \ sum _ {(x, y) \ in (X, Y)} {f_j p_D (x, y)} = \ sum _ {(x, y) \ in (X, Y)} {f_j p_M (y | x) p_M (x)} [/ matemáticas]

Un inconveniente es que necesitamos descubrir qué hacer con [math] p_M (x) [/ math]. Asumimos el supuesto simplificador de que [math] p_M (x) [/ math] es proporcional al número de veces que [math] x [/ math] ocurre en [math] D [/ math]. Entonces, nuestra restricción se convierte en:

[matemáticas] 1 / | D | * \ sum _ {(x, y) \ en D} I (y == c) * f_j = 1 / | D | * \ sum _ {(x, y) \ en D} p_M (y | x) * f_j [/ math].

Resolver con esta nueva restricción es bastante similar a lo anterior, y nuevamente produce la forma log-lineal:

[matemáticas] p_M (y | x) = e ^ {\ sum_ {j} – \ lambda_j * f_j} / e ^ {1- \ lambda_0} [/ matemáticas]

Resumen: el principio de máxima entropía nos dice que si estamos modelando alguna distribución y tenemos algunas restricciones comprobables, deberíamos elegir la distribución que satisfaga esas restricciones con la máxima entropía. Restringimos la distribución de nuestro modelo para que la expectativa de cada característica con esta distribución sea la misma que la expectativa de la característica con la distribución empírica. Resolvemos el problema de optimización restringida y nos da la forma log-lineal utilizada en la regresión logística multinomial.

Jay Verkuilen

MaxEnt es solo regresión logística multinomial. Todas las regresiones logísticas son modelos loglineales pero no al revés.

Jay Verkuilen

More Interesting

¿Qué sería más beneficioso para un estudiante de tercer año de ECE, hacer aprendizaje automático u otros cursos?

¿Qué es un gran blog para el aprendizaje automático?

¿Cuál es la diferencia entre gradiente de política determinista y gradiente de política estocástica?

¿El CAPM está muerto, en el sentido de que el aprendizaje automático moderno y el modelado financiero han hecho que su aplicación en el mundo real sea redundante?

¿Cómo detectamos las anamolias que causan la caída de la máquina y la pérdida de producción en la fabricación?

¿Cuál ha sido la experiencia de la gente con RapidMiner?

¿Por qué el aprendizaje en estructuras de datos complejas (gráficos, árboles, etc.) está tan poco representado en el aprendizaje automático?

¿Qué motores de búsqueda hacen un buen uso de las capacidades de búsqueda semántica?