Para un SVM lineal, ¿cómo se elige la intersección b * para el límite de decisión de margen máximo?

Recuerde el margen blando de una SVM de clase binaria de la siguiente manera:

[matemáticas] \ begin {alineado} & \ underset {w, \ xi} {\ text {min}} & & \ frac {1} {2} || w || ^ 2 + C \ sum_ {i = 1} ^ {n} \ xi_i \\ & \ text {st} & & y_i (w ^ Tx_i + b) \ geq 1- \ xi_ {i} \; i = 1, \ ldots, n \\ & & & \ xi \ geq 0 \ end {alineado} [/ math]

El parámetro [math] b [/ math] se resuelve como parte de la formulación en el conjunto anterior. Pero, ¿cómo puede considerarse óptimo el parámetro [math] b [/ math], también conocido como sesgo?

La figura anterior se adoptó de Duda et al., 2000. Es un diagrama de probabilidad de error para anteriores iguales contra el punto de datos de prueba [matemática] x ^ * [/ matemática]. Está claro de lo anterior que el parámetro [matemáticas] b [/ matemáticas] debe estar a medio camino entre el punto de datos más a la izquierda de la clase 2 y el punto de datos más a la derecha de la clase 1. Por lo tanto, el parámetro óptimo [matemáticas] b [/ matemática] puede ser como sigue (Página 13 de las Notas de Andrew Ng sobre SVM, http://cs229.stanford.edu/notes/…):

[matemáticas] b ^ * = – \ frac {max_ {i: y_i = -1} w ^ {* T} x_i + min_ {i: y_i = 1} w ^ {* T} x_i} {2} [/ matemáticas ]

Si está resolviendo en el espacio primario, generalmente utiliza subgraduados, en cuyo caso optimiza conjuntamente para w y b , y obtiene directamente b .
Si está resolviendo en el espacio dual, resuelve para [math] \ alpha [/ math], que le da w . Entonces, dado que cualquier vector de soporte satisface [math] y_ {i} (w ^ T x_ {i} + b) = 1 [/ math], puede obtener b de cualquier vector de soporte.

Puede resolver para b tal como resolvería para los parámetros de w. Descenso de gradiente es el método para resolver para b.

More Interesting

¿Qué es la perplejidad en el análisis bayesiano?

¿Qué es el aprendizaje activo?

¿Qué es el 'aprendizaje automático de crowdsourcing'?

¿Cuándo debo coseno similitud? ¿Se puede usar para la agrupación?

¿Cuál es la forma más fácil de entender el análisis de componentes principales?

¿Cuál es el entorno libre de distribución en la teoría del aprendizaje estadístico?

¿Cuál es el mejor libro para aprender el pensamiento algorítmico?

Cómo comenzar con el aprendizaje profundo (cosas matemáticas) en Python

Procesamiento del lenguaje natural: ¿Cuáles son algunas ideas de problemas / proyectos sobre la clasificación jerárquica de textos?

¿Alguna forma de dormir será esencial en la IA (inteligencia artificial)?

¿Cuál es la mejor manera de combinar filtrado colaborativo y recomendaciones basadas en contenido?

¿Qué significa "tomar la media geométrica de la distribución predictiva producida por las redes de abandono exponencialmente numerosas" en redes neuronales profundas?

El entrenamiento de redes neuronales profundas utilizando la propagación inversa tiene el problema de un gradiente de error que desaparece y que establece un límite sobre cuántas capas se pueden entrenar efectivamente, entonces, ¿por qué no usar un algoritmo genético para entrenar redes profundas, eliminando la propagación de errores?

¿Cuáles son algunos proyectos interesantes del último año relacionados con el aprendizaje automático?

¿Cuándo usan los combatientes la ametralladora / cañón y cuándo usan misiles en el combate aire-aire?