Hay al menos tres formas de ver la formulación de SVM. Uno es completamente geométrico y no tiene una intuición probabilística adjunta. Mire este pdf [1] para conocer la forma geométrica de formular SVM. Sin embargo, hay dos formas más de derivar la formulación SVM.
Una es mostrar que para la clase de hipótesis lineal parametrizada por [math] w [/ math], el riesgo empírico está limitado por [math] \ | w \ | [/ math], lo que lleva a la conclusión de que minimizar [math] ] \ | w \ | [/ math] minimiza el límite superior del riesgo empírico (que es esencialmente SVM). Este límite de riesgo empírico es un límite probabilístico y requiere su suposición en los datos.
La segunda forma es mostrar que SVM es en realidad una estimación de máxima probabilidad de un modelo probabilístico subyacente [2, ICML 2011]. Nuevamente, el modelo probabilístico hace la suposición iid en los datos para obtener la estimación de máxima verosimilitud.
- Cómo medir la incertidumbre o dar medidas de intervalo de confianza junto con un modelo de red neuronal existente
- ¿Qué tan efectivamente se pueden usar las redes neuronales en la regresión? ¿Es posible alguna configuración que prediga un número que no se ve en los datos de entrenamiento?
- ¿Cuál es la mejor manera de aprender la programación CUDA C para implementar nuevas ideas de aprendizaje profundo?
- ¿Es Theano (biblioteca de Python ML) una buena biblioteca si quiero crear una aplicación comercial?
- ¿Es mejor utilizar algoritmos basados en reglas o de aprendizaje automático para la clasificación en un dominio de respuesta a preguntas cerrado?
La forma geométrica de derivar SVM, si bien es la más simple de entender, tampoco nos permite comprender el impacto de la distribución de los datos de entrenamiento en el aprendizaje de SVM, mientras que a partir de [2], un impacto inmediato que vemos es cómo es SVM en realidad asumiendo uniforme antes sobre las etiquetas.
¿Es [2] la forma final de ver SVM? Espero que no. Estoy bastante seguro de que a medida que avanza la investigación, podemos llegar a ver SVM de múltiples maneras diferentes que expondrán otras diversas suposiciones ocultas en el modelo, que los profesionales han estado observando al aplicar SVM a conjuntos de datos reales.
[1] Página en mit.edu
[2] Página en felk.cvut.cz