¿Cuál es la diferencia entre regresión logística y factorización matricial?

Si está haciendo LR multiclase (con función de enlace softmax), entonces son algo equivalentes, como señaló Wenqiang Chen.

Quiero agregar eso, hay un truco simple para convertir un LR multiclase en un problema de MF.

Suponga que cada punto de datos [matemática] x_i [/ ​​matemática] tiene el resultado [matemática] e_i [/ ​​matemática] que toma uno de los posibles resultados [matemática] K [/ matemática] [matemática] 1, \ cdots, K [/ matemática] . Luego, de acuerdo con la ecuación LR, [matemáticas] p (j | x_i) \ sim \ exp (\ theta_j ^ T x_i) [/ matemáticas]. Tomando la relación [matemática] p (j | x_i) / p (k | x_i) = \ exp ((\ theta_j – \ theta_k) ^ T x_i) [/ math]. Tomando el logaritmo de ambos lados, obtenemos [math] \ log p (j | x_i) – \ log p (k | x_i) = (\ theta_j – \ theta_k) ^ T x_i [/ ​​math]. Con varios pares [matemática] (x_1, e_1), \ cdots, (x_n, e_n) [/ matemática], podemos calcular cada [matemática] p (k | x_i) [/ matemática], y luego obtenemos un sistema lineal que se puede enmarcar fácilmente como factorización matricial.

LR es una combinación lineal de pesos [math] \ theta [/ math] y vector de características: [math] \ theta ^ T x [/ math]. El valor de predicción se escaló a [0,1] mediante alguna función de enlace, en este caso, la función logit.

MF se puede ver como una versión de expansión de LR, por ejemplo, [matemática] Y = U ^ TV [/ matemática], tome U como los vectores de peso y V como los vectores de características, entonces cada elemento en Y es una fórmula de [ matemáticas] \ theta ^ T x [/ matemáticas], donde [matemáticas] \ theta [/ matemáticas] es una columna de [matemáticas] U [/ matemáticas] y [matemáticas] x [/ matemáticas] es una columna de [matemáticas] V [/ matemáticas]

La regresión logística es un método supervisado.
La factorización matricial es un método no supervisado

More Interesting

Durante la limpieza de datos cuando tiene un número decimal que representa el número de personas, ¿debe redondear hacia arriba o hacia abajo? Además, ¿qué sucede si el número total de todos los números redondeados no coincide con el número total de personas, es un error?

Cómo lidiar con múltiples resultados mutuamente dependientes en el aprendizaje automático

¿Qué es la agrupación?

¿Cuál es actualmente la mejor GPU para el aprendizaje profundo?

¿Hay alguna forma de llamar a las funciones de Python desde mi aplicación NodeJS para aprovechar el poder del aprendizaje automático en una aplicación Node?

¿El objetivo de un autoencoder variacional y una red de confrontación generativa es el mismo?

¿Qué significa extraer características de alguna capa de una red neuronal convolucional?

En la calificación crediticia, ¿cuáles son las ventajas y desventajas del aprendizaje automático en relación con las técnicas de regresión tradicionales?

Cómo obtener una pasantía de investigación del profesor en la NYU en proyectos que necesitan experiencia en minería de datos o aprendizaje automático

¿Qué es mejor para la detección de automóviles: Haar Cascade o HOG?

¿Qué algoritmo funciona mejor para bandidos adversarios?

¿Cuáles son los pros y los contras de Spark MLlib vs. H2O?

¿Por qué un algoritmo evolutivo es un método inapropiado para usar cuando se busca una clave para descifrar un mensaje codificado cuando solo hay una respuesta correcta?

¿Cuáles son los poderes de clasificación sobre la agrupación? ¿Por qué elegiría una clasificación?

¿Qué tan importante es Octave como primer paso en Machine Learning? ¿Se utiliza en la industria?