Support Vector Machines: ¿Cómo elijo un parámetro de escala de kernel?

El “parámetro de escala del núcleo” se llama “gamma” en LibSVM. Considere el núcleo gaussiano: k (x, y) = exp (-gamma * (xy) ^ 2). Si gamma es grande, entonces este núcleo se caerá rápidamente a medida que el punto y se aleje de x. A medida que disminuye gamma, el grano se caerá cada vez menos rápido. Cuando gamma es 0, el núcleo será el mismo (= 1) para todos los puntos y independientemente de dónde esté y en el espacio de características.

En esta interpretación, gamma está relacionado con la extensión de sus puntos de datos. Si están muy lejos el uno del otro (lo que sucedería en un espacio dimensional muy alto, por ejemplo), entonces no desea que el núcleo se caiga rápidamente, por lo que usaría una pequeña gamma. Por lo tanto, libSVM utiliza un valor predeterminado de 1 / num_features.

En cuanto a cómo configurarlo, la respuesta tendrá que ser validación cruzada.

Related Content

¿Se puede utilizar el aprendizaje no supervisado en el reconocimiento de imágenes?

¿Es el hecho de que los algoritmos de aprendizaje profundo requieren grandes extensiones de datos como una limitación final de su potencial en IA?

Cómo evaluar la reciente eliminación de recomendaciones para usar hilo dental

¿Cuáles son actualmente los temas candentes en la investigación de aprendizaje automático y en aplicaciones reales?

¿Puede Quora generar un patrón para el futuro de las personas con sus respuestas y preguntas?

¿Por qué una trampa interrumpe tanto el borde como el nivel activado?

¿Qué es ingenuo Bayes, clasificación de espacio vectorial y máquinas de vectores de soporte en la recuperación de información?

Incluso con libsvm, incluso con toda esa comprensión, lo que generalmente gana es Grid Search. Debido a la complejidad natural de los núcleos, es difícil visualizarlos. Intentaría una búsqueda en la cuadrícula también en este caso o pondría un meta aprendiz encima de eso e intentaría predecir qué valores de parámetros serían buenos. Que te diviertas

Bharath Hariharan

More Interesting

¿Cuáles son algunas de las funciones de uso común que se pueden extraer de la música con fines de aprendizaje automático?

¿Las redes neuronales convolucionales funcionan de la misma manera que las redes en nuestro cerebro?

¿Cuál es la mejor herramienta de optimización bayesiana para optimizar hiperparámetros de grandes redes neuronales?

¿Qué algoritmos de aprendizaje automático utilizan servicios como wit.ai y api.ai?

¿Cuándo las funciones coercitivas tienen un minimizador?

¿Por qué algunas personas confunden las estadísticas con el aprendizaje automático?

¿Cómo se pueden usar los modelos ocultos de Markov para reconocer la escritura cursiva?

¿Qué es el cambio de covariable?

¿Qué ha aprendido sobre el aprendizaje automático, la recuperación de información y la minería de datos después de unirse a una empresa de Internet que se ocupa de big data?

¿Por qué funciona la función de costo de regresión logística?

Soy Editor de Adquisiciones y para obtener conocimiento y autoaprendizaje de análisis de datos y habilidades de aprendizaje automático. ¿Alguien podría ayudarme a trazar un plan?

¿Cómo lidiamos con conjuntos de datos muy grandes que no caben en la RAM?

Cómo construir una PC para juegos y para aprendizaje profundo

¿Cuál es la ventaja de Bayesian Naive Bayes sobre Naive Bayes simple?

¿La variable de tiempo muestra una conexión recurrente en RNN?

Web Analytics