Si creemos que los datos de entrenamiento no son linealmente separables (en cualquier espacio que los clasifiquemos), introducimos variables de holgura en la función de costos antes de la optimización para permitir esto. Esto requiere que introduzcamos un hiperparámetro [matemático] C [/ matemático] que controla la compensación entre el tamaño del margen y la clasificación errónea aceptable de ejemplos de entrenamiento.
Además, los núcleos que queremos utilizar para la separación no lineal generalmente vienen equipados con sus propios hiperparámetros. Por ejemplo, el núcleo polinomial no homogéneo:
[matemáticas] k (x, x ‘) = (x ^ Tx’ + a) ^ d [/ matemáticas]
- Cómo eliminar una fila completa de un conjunto de datos si encuentro entradas faltantes en R
- ¿Qué es una explicación intuitiva para PCA?
- ¿Qué es una explicación intuitiva del parámetro gamma en SVM?
- ¿Cuáles son las ventajas de las técnicas de aprendizaje automático sobre las técnicas de pronóstico tradicionales?
- ¿Cuáles son las máquinas CNC más vendidas en todo el mundo?
Tiene dos HP: [matemática] a [/ matemática] que permite desplazamiento lineal y [matemática] d [/ matemática], el orden del espacio de características polinomiales. Del mismo modo, el gaussiano (RBF, exponencial-cuadrático, como quiera llamarlo):
[matemáticas] k (x, x ‘) = l ^ 2 \ exp \ left (\ frac {\ | xx’ \ | ^ 2} {2 \ sigma ^ 2} \ right) [/ math]
también tiene dos HP: [matemática] l [/ matemática] que controla la magnitud del ruido y [matemática] \ sigma [/ matemática] que controla la escala de longitud del núcleo.
En general, un SVM tendrá dos o tres HP: [math] C [/ math] y los kernel HP. Podemos ajustar estos como si sintonizáramos los HP de cualquier otro modelo de ML: mediante la búsqueda de cuadrícula, la optimización bayesiana, la búsqueda aleatoria, lo que desee. Por supuesto, todo esto requiere que reserve un conjunto de validación para el proceso de ajuste.
Por supuesto, si lo desea, puede usar un proceso gaussiano para la clasificación, que generalmente logrará un rendimiento comparable y le permitirá aprender los valores de los parámetros a partir de los datos utilizando los principios de máxima probabilidad.