Si estuviéramos usando un SVM no lineal, ¿cuáles son los hiperparámetros? ¿Cómo elegiríamos los hiperparámetros correspondientes? (funciones de referencia utilizadas)

Si creemos que los datos de entrenamiento no son linealmente separables (en cualquier espacio que los clasifiquemos), introducimos variables de holgura en la función de costos antes de la optimización para permitir esto. Esto requiere que introduzcamos un hiperparámetro [matemático] C [/ matemático] que controla la compensación entre el tamaño del margen y la clasificación errónea aceptable de ejemplos de entrenamiento.

Además, los núcleos que queremos utilizar para la separación no lineal generalmente vienen equipados con sus propios hiperparámetros. Por ejemplo, el núcleo polinomial no homogéneo:

[matemáticas] k (x, x ‘) = (x ^ Tx’ + a) ^ d [/ matemáticas]

Tiene dos HP: [matemática] a [/ matemática] que permite desplazamiento lineal y [matemática] d [/ matemática], el orden del espacio de características polinomiales. Del mismo modo, el gaussiano (RBF, exponencial-cuadrático, como quiera llamarlo):

[matemáticas] k (x, x ‘) = l ^ 2 \ exp \ left (\ frac {\ | xx’ \ | ^ 2} {2 \ sigma ^ 2} \ right) [/ math]

también tiene dos HP: [matemática] l [/ matemática] que controla la magnitud del ruido y [matemática] \ sigma [/ matemática] que controla la escala de longitud del núcleo.

En general, un SVM tendrá dos o tres HP: [math] C [/ math] y los kernel HP. Podemos ajustar estos como si sintonizáramos los HP de cualquier otro modelo de ML: mediante la búsqueda de cuadrícula, la optimización bayesiana, la búsqueda aleatoria, lo que desee. Por supuesto, todo esto requiere que reserve un conjunto de validación para el proceso de ajuste.

Por supuesto, si lo desea, puede usar un proceso gaussiano para la clasificación, que generalmente logrará un rendimiento comparable y le permitirá aprender los valores de los parámetros a partir de los datos utilizando los principios de máxima probabilidad.

Aprendizaje automáticoAprendizaje profundoMáquinas de vectores de soporteProgramación informática