Recuerde el margen blando de una SVM de clase binaria de la siguiente manera:
[matemáticas] \ begin {alineado} & \ underset {w, \ xi} {\ text {min}} & & \ frac {1} {2} || w || ^ 2 + C \ sum_ {i = 1} ^ {n} \ xi_i \\ & \ text {st} & & y_i (w ^ Tx_i + b) \ geq 1- \ xi_ {i} \; i = 1, \ ldots, n \\ & & & \ xi \ geq 0 \ end {alineado} [/ math]
El parámetro [math] b [/ math] se resuelve como parte de la formulación en el conjunto anterior. Pero, ¿cómo puede considerarse óptimo el parámetro [math] b [/ math], también conocido como sesgo?
- ¿Cuáles son los primeros usos de la regresión logística?
- ¿Puede el aprendizaje automático realizar un análisis de sentimientos de una palabra clave dada de una conversación?
- Cómo identificar la ubicación de cualquier mensaje de texto usando ML o NLP
- ¿Cuál es el objetivo de la detección de fraude con tarjeta de crédito?
- ¿Necesita ser un buen ingeniero de software para trabajar en cosas como visión por computadora, reconocimiento de voz, gráficos por computadora, aprendizaje automático?
La figura anterior se adoptó de Duda et al., 2000. Es un diagrama de probabilidad de error para anteriores iguales contra el punto de datos de prueba [matemática] x ^ * [/ matemática]. Está claro de lo anterior que el parámetro [matemáticas] b [/ matemáticas] debe estar a medio camino entre el punto de datos más a la izquierda de la clase 2 y el punto de datos más a la derecha de la clase 1. Por lo tanto, el parámetro óptimo [matemáticas] b [/ matemática] puede ser como sigue (Página 13 de las Notas de Andrew Ng sobre SVM, http://cs229.stanford.edu/notes/…):
[matemáticas] b ^ * = – \ frac {max_ {i: y_i = -1} w ^ {* T} x_i + min_ {i: y_i = 1} w ^ {* T} x_i} {2} [/ matemáticas ]