¿Qué es SVM latente en el aprendizaje automático? ¿Cómo es diferente de SVM normal (caso binario)?

SVM habitual: aprende aw usando pares (x, y).
SVM latente: se supone que los pares (x, y) no son suficientes para describir la relación entrada-salida, pero esta relación también depende de las variables latentes no observadas z.

La siguiente respuesta es la derivación del procedimiento de aprendizaje para una SVM latente y un resumen de [1], que debería servir como tutorial en las SVM latentes.
Esto significa que ahora quieres aprender una regla de predicción como esta:

[matemáticas] \ hat {y} = argmax _ {(y, z) \ en Y \ veces Z} [/ matemáticas]

Para hacer tal cosa, necesitaríamos modificar nuestra función de pérdida para que también incluya las variables latentes:
[matemáticas] \ Delta ((y_i, z_i), (\ hat {y} _i, \ hat {z} _i)) [/ math]

dónde
[matemática] z_i = argmax_ {z \ en Z} [] [/ matemática]
y
[matemáticas] (\ hat {y} _i, \ hat {z} _i) = argmax _ {(y, z) \ en Y \ veces Z} [] [/ mates]

Podemos derivar un límite superior para la pérdida que es similar al límite superior de pérdida de bisagra:

[matemáticas] \ Delta ((y_i, z_i), (\ hat {y} _i, \ hat {z} _i)) <= argmax _ {(\ hat {y}, \ hat {z}) \ en Y \ times Z} [] [/ math] [math] + \ Delta ((y_i, z_i), (\ hat {y} _i, \ hat {z} _i)) – (max_ {z \ in Z} []) [/ math]

Para hacer el truco de inferencia aumentada por pérdida y simplificar la expresión anterior, tenemos que redefinir la función de pérdida y asumir que no depende de [math] z_i [/ ​​math], de esta manera y por la definición de [math] (\ hat {y} _i, \ hat {z} _i) [/ math] podemos poner [math] \ Delta [/ math] dentro del máximo:
[matemáticas] argmax _ {(\ hat {y}, \ hat {z}) \ en Y \ veces Z} [ + \ Delta (y_i, \ hat {y} _i, \ hat {z} _i)] – (max_ {z \ in Z} []) [/ math]

Sumamos todos los pares y también ponemos el término de regularización (para aplicar soluciones dispersas) y llegamos al problema de optimización del SVM latente:

[matemáticas] 1/2 || w || ^ 2 + \ Sum_i argmax _ {(\ hat {y}, \ hat {z}) \ en Y \ veces Z} [ + \ Delta (y_i, \ hat {y} _i, \ hat {z} _i)] – \ Sum_i (max_ {z \ in Z} []) [/ math]

Aquí tenemos un problema de optimización que consiste en la diferencia de 2 funciones convexas, una forma de resolver dicho problema es aplicar el procedimiento cóncavo-convexo.

1. Yu, Chun-Nam John y Joachims, Thorsten. Aprendizaje de SVM estructurales con variables latentes. ICML 2009

More Interesting

¿Qué es apilar en el aprendizaje automático?

¿Cuáles fueron algunos de los artículos de conferencias / revistas de investigación del discurso más interesantes / dignos de mención en 2012?

¿Cuál es el producto de reconocimiento de voz más utilizado?

Las redes neuronales se han vuelto muy populares en los últimos años, sin embargo, gran parte de la teoría se desarrolló hace 20 años. ¿Qué avances explican los éxitos recientes?

El mejor ajuste de línea se puede encontrar analíticamente por el método de mínimos cuadrados. ¿Podemos decir que la regresión lineal (mínimos cuadrados) tiene un optimizador?

¿Cuáles son los beneficios y desafíos de hacer una investigación de aprendizaje profundo en la academia, en comparación con la industria?

¿Cuál es más importante de los tres, es decir, informática ubicua, informática distribuida y procesamiento de lenguaje natural, en el mundo de hoy?

¿Hay alguna manera de determinar o reducir las opciones con las que uno debería experimentar para mejorar (por ejemplo) una red neuronal clasificadora de imágenes binarias?

¿Cómo se puede aplicar el aprendizaje automático al póker?

¿Quiénes son los mejores expertos en Machine Learning en el Área de la Bahía?

¿Por qué es tan importante aprender las redes neuronales convolucionales?

¿Qué es un buen algoritmo de recomendación de películas?

¿Cómo podemos hacer una buena predicción usando el aprendizaje profundo MXNet R?

¿Qué es el algoritmo de cambio medio?

¿Cómo asociaría un producto con una categoría y subcategoría basada en la descripción de texto del producto?