Si estuviéramos usando un SVM no lineal, ¿cuáles son los hiperparámetros? ¿Cómo elegiríamos los hiperparámetros correspondientes? (funciones de referencia utilizadas)

Si creemos que los datos de entrenamiento no son linealmente separables (en cualquier espacio que los clasifiquemos), introducimos variables de holgura en la función de costos antes de la optimización para permitir esto. Esto requiere que introduzcamos un hiperparámetro [matemático] C [/ matemático] que controla la compensación entre el tamaño del margen y la clasificación errónea aceptable de ejemplos de entrenamiento.

Además, los núcleos que queremos utilizar para la separación no lineal generalmente vienen equipados con sus propios hiperparámetros. Por ejemplo, el núcleo polinomial no homogéneo:

[matemáticas] k (x, x ‘) = (x ^ Tx’ + a) ^ d [/ matemáticas]

Tiene dos HP: [matemática] a [/ matemática] que permite desplazamiento lineal y [matemática] d [/ matemática], el orden del espacio de características polinomiales. Del mismo modo, el gaussiano (RBF, exponencial-cuadrático, como quiera llamarlo):

[matemáticas] k (x, x ‘) = l ^ 2 \ exp \ left (\ frac {\ | xx’ \ | ^ 2} {2 \ sigma ^ 2} \ right) [/ math]

también tiene dos HP: [matemática] l [/ matemática] que controla la magnitud del ruido y [matemática] \ sigma [/ matemática] que controla la escala de longitud del núcleo.

En general, un SVM tendrá dos o tres HP: [math] C [/ math] y los kernel HP. Podemos ajustar estos como si sintonizáramos los HP de cualquier otro modelo de ML: mediante la búsqueda de cuadrícula, la optimización bayesiana, la búsqueda aleatoria, lo que desee. Por supuesto, todo esto requiere que reserve un conjunto de validación para el proceso de ajuste.

Por supuesto, si lo desea, puede usar un proceso gaussiano para la clasificación, que generalmente logrará un rendimiento comparable y le permitirá aprender los valores de los parámetros a partir de los datos utilizando los principios de máxima probabilidad.

More Interesting

¿Puede ingresar al programa de doctorado CS de nivel superior / siguiente sin publicación, suponiendo que tenga una experiencia de investigación decente?

Cómo elegir un algoritmo de aprendizaje automático

Si la IA de aprendizaje automático no puede explicar una respuesta, ¿se puede 'confiar' en un diagnóstico médico?

¿Para qué sirve el aprendizaje automático o la inteligencia artificial?

Con la introducción de la inteligencia artificial, ¿podrán las computadoras tener un alto coeficiente intelectual?

¿Cuáles son las historias de éxito del aprendizaje profundo para el procesamiento del lenguaje natural y los marcos y bibliotecas utilizados o creados por ellos?

¿Cuáles son las ventajas de aprender Apache Spark?

Cómo comenzar a aprender lenguaje máquina a partir de tutoriales

¿Cómo puedo seleccionar todos los archivos que se modifican todos con un día de diferencia en un directorio UNIX?

¿Cuáles son algunos proyectos de investigación interesantes relacionados con el aprendizaje automático?

¿Cómo utiliza Google el aprendizaje automático?

¿Qué técnicas se usan generalmente para la reducción de la dimensionalidad en el campo de análisis de Big Data?

Cómo explicar claramente el aprendizaje profundo a alguien con antecedentes matemáticos limitados

Karpathy mencionó durante una conferencia que es posible reemplazar la capa FC al final de una CNN con una capa de agrupación promedio. ¿Alguien lo ha intentado?

¿Cuáles son los avances actuales en la ciencia de datos genómicos?