¿Qué es SVM latente en el aprendizaje automático? ¿Cómo es diferente de SVM normal (caso binario)? La tecnología cambia la vida futura

SVM habitual: aprende aw usando pares (x, y).
SVM latente: se supone que los pares (x, y) no son suficientes para describir la relación entrada-salida, pero esta relación también depende de las variables latentes no observadas z.

La siguiente respuesta es la derivación del procedimiento de aprendizaje para una SVM latente y un resumen de [1], que debería servir como tutorial en las SVM latentes.
Esto significa que ahora quieres aprender una regla de predicción como esta:

[matemáticas] \ hat {y} = argmax _ {(y, z) \ en Y \ veces Z} [/ matemáticas]

Para hacer tal cosa, necesitaríamos modificar nuestra función de pérdida para que también incluya las variables latentes:
[matemáticas] \ Delta ((y_i, z_i), (\ hat {y} _i, \ hat {z} _i)) [/ math]

dónde
[matemática] z_i = argmax_ {z \ en Z} [] [/ matemática]
y
[matemáticas] (\ hat {y} _i, \ hat {z} _i) = argmax _ {(y, z) \ en Y \ veces Z} [] [/ mates]

Podemos derivar un límite superior para la pérdida que es similar al límite superior de pérdida de bisagra:

[matemáticas] \ Delta ((y_i, z_i), (\ hat {y} _i, \ hat {z} _i)) <= argmax _ {(\ hat {y}, \ hat {z}) \ en Y \ times Z} [] [/ math] [math] + \ Delta ((y_i, z_i), (\ hat {y} _i, \ hat {z} _i)) – (max_ {z \ in Z} []) [/ math]

Para hacer el truco de inferencia aumentada por pérdida y simplificar la expresión anterior, tenemos que redefinir la función de pérdida y asumir que no depende de [math] z_i [/ math], de esta manera y por la definición de [math] (\ hat {y} _i, \ hat {z} _i) [/ math] podemos poner [math] \ Delta [/ math] dentro del máximo:
[matemáticas] argmax _ {(\ hat {y}, \ hat {z}) \ en Y \ veces Z} [ + \ Delta (y_i, \ hat {y} _i, \ hat {z} _i)] – (max_ {z \ in Z} []) [/ math]

Sumamos todos los pares y también ponemos el término de regularización (para aplicar soluciones dispersas) y llegamos al problema de optimización del SVM latente:

[matemáticas] 1/2 || w || ^ 2 + \ Sum_i argmax _ {(\ hat {y}, \ hat {z}) \ en Y \ veces Z} [ + \ Delta (y_i, \ hat {y} _i, \ hat {z} _i)] – \ Sum_i (max_ {z \ in Z} []) [/ math]

Aquí tenemos un problema de optimización que consiste en la diferencia de 2 funciones convexas, una forma de resolver dicho problema es aplicar el procedimiento cóncavo-convexo.

1. Yu, Chun-Nam John y Joachims, Thorsten. Aprendizaje de SVM estructurales con variables latentes. ICML 2009