¿Por qué decimos que la máquina de vectores de soporte y muchas otras técnicas de aprendizaje automático tienen un supuesto subyacente de iid?

Hay al menos tres formas de ver la formulación de SVM. Uno es completamente geométrico y no tiene una intuición probabilística adjunta. Mire este pdf [1] para conocer la forma geométrica de formular SVM. Sin embargo, hay dos formas más de derivar la formulación SVM.

Una es mostrar que para la clase de hipótesis lineal parametrizada por [math] w [/ math], el riesgo empírico está limitado por [math] \ | w \ | [/ math], lo que lleva a la conclusión de que minimizar [math] ] \ | w \ | [/ math] minimiza el límite superior del riesgo empírico (que es esencialmente SVM). Este límite de riesgo empírico es un límite probabilístico y requiere su suposición en los datos.

La segunda forma es mostrar que SVM es en realidad una estimación de máxima probabilidad de un modelo probabilístico subyacente [2, ICML 2011]. Nuevamente, el modelo probabilístico hace la suposición iid en los datos para obtener la estimación de máxima verosimilitud.

La forma geométrica de derivar SVM, si bien es la más simple de entender, tampoco nos permite comprender el impacto de la distribución de los datos de entrenamiento en el aprendizaje de SVM, mientras que a partir de [2], un impacto inmediato que vemos es cómo es SVM en realidad asumiendo uniforme antes sobre las etiquetas.

¿Es [2] la forma final de ver SVM? Espero que no. Estoy bastante seguro de que a medida que avanza la investigación, podemos llegar a ver SVM de múltiples maneras diferentes que expondrán otras diversas suposiciones ocultas en el modelo, que los profesionales han estado observando al aplicar SVM a conjuntos de datos reales.

[1] Página en mit.edu
[2] Página en felk.cvut.cz

Además de lo descrito por el usuario anónimo anterior, me gustaría agregar mis hallazgos en mi investigación reciente:

Encontré un documento que explica por qué la máquina de vectores de soporte también es coherente con los datos dependientes . El documento se llama “Aprender de las observaciones dependientes” (página en arxiv.org).

Si está interesado, hay una derivación más elaborada del resultado proporcionado en una tesis de maestría: Página en stat.ethz.ch

Ambos documentos son muy técnicos, de modo que tengo problemas para comprender las condiciones para delinear, cuando se nos permite usar la máquina de vectores de soporte en datos dependientes.