SVM habitual: aprende aw usando pares (x, y).
SVM latente: se supone que los pares (x, y) no son suficientes para describir la relación entrada-salida, pero esta relación también depende de las variables latentes no observadas z.
La siguiente respuesta es la derivación del procedimiento de aprendizaje para una SVM latente y un resumen de [1], que debería servir como tutorial en las SVM latentes.
Esto significa que ahora quieres aprender una regla de predicción como esta:
[matemáticas] \ hat {y} = argmax _ {(y, z) \ en Y \ veces Z} [/ matemáticas]
- Después de seleccionar entidades con una regresión regularizada, ¿es mejor estimar el resultado con la misma regresión regularizada o con una regresión no regularizada?
- ¿Qué es un proceso gaussiano?
- ¿La programación de Python es suficiente para el aprendizaje automático o deberíamos aprender R también?
- ¿Cuál es la diferencia entre análisis de datos, ciencia de datos, big data y aprendizaje automático?
- ¿Cómo se pueden extender los codificadores automáticos a tamaños de imagen realistas como 640 x 480 o más?
Para hacer tal cosa, necesitaríamos modificar nuestra función de pérdida para que también incluya las variables latentes:
[matemáticas] \ Delta ((y_i, z_i), (\ hat {y} _i, \ hat {z} _i)) [/ math]
dónde
[matemática] z_i = argmax_ {z \ en Z} [] [/ matemática]
y
[matemáticas] (\ hat {y} _i, \ hat {z} _i) = argmax _ {(y, z) \ en Y \ veces Z} [] [/ mates]
Podemos derivar un límite superior para la pérdida que es similar al límite superior de pérdida de bisagra:
[matemáticas] \ Delta ((y_i, z_i), (\ hat {y} _i, \ hat {z} _i)) <= argmax _ {(\ hat {y}, \ hat {z}) \ en Y \ times Z} [] [/ math] [math] + \ Delta ((y_i, z_i), (\ hat {y} _i, \ hat {z} _i)) – (max_ {z \ in Z} []) [/ math]
Para hacer el truco de inferencia aumentada por pérdida y simplificar la expresión anterior, tenemos que redefinir la función de pérdida y asumir que no depende de [math] z_i [/ math], de esta manera y por la definición de [math] (\ hat {y} _i, \ hat {z} _i) [/ math] podemos poner [math] \ Delta [/ math] dentro del máximo:
[matemáticas] argmax _ {(\ hat {y}, \ hat {z}) \ en Y \ veces Z} [ + \ Delta (y_i, \ hat {y} _i, \ hat {z} _i)] – (max_ {z \ in Z} []) [/ math]
Sumamos todos los pares y también ponemos el término de regularización (para aplicar soluciones dispersas) y llegamos al problema de optimización del SVM latente:
[matemáticas] 1/2 || w || ^ 2 + \ Sum_i argmax _ {(\ hat {y}, \ hat {z}) \ en Y \ veces Z} [ + \ Delta (y_i, \ hat {y} _i, \ hat {z} _i)] – \ Sum_i (max_ {z \ in Z} []) [/ math]
Aquí tenemos un problema de optimización que consiste en la diferencia de 2 funciones convexas, una forma de resolver dicho problema es aplicar el procedimiento cóncavo-convexo.
1. Yu, Chun-Nam John y Joachims, Thorsten. Aprendizaje de SVM estructurales con variables latentes. ICML 2009