No estoy seguro de la premisa de su pregunta, ya que las máquinas de vectores de soporte son modelos lineales en sí mismas: aprenden el hiperplano “mejor” (margen más grande) que separa linealmente los datos que se le presentan.
Sin embargo, las máquinas de vectores de soporte también pueden aprender los límites de decisión no lineales bastante bien, pero esto no cambia el hecho de que el SVM es un clasificador lineal. Antes de presentar los datos al SVM para el aprendizaje, las transformaciones de características se pueden aplicar a los datos para generar características no lineales. Aquí es donde se introduce la no linealidad.
Después de generar características polinómicas, es decir, alimentar cada vector de características en alguna función y generar un nuevo vector de características [math] \ phi (x) [/ math], utilizando algunos trucos matemáticos interesantes, puede escribir el problema de optimización y predicción de SVM como depende solo de los productos internos entre los datos de entrenamiento / prueba: [math] \ phi (x_m) * \ phi (x_n) [/ math], y esto permite que el SVM sea kernelized – reemplazado con una función [math] k (x_m, x_n) [/ math] que calcula algún tipo de “similitud” entre los dos puntos. Existen muchos tipos de núcleos, los más populares son los núcleos gaussianos o polinomiales. A partir de esto, los SVM pueden aprender los límites de decisión no lineales.
- ¿Qué representación gráfica es mejor para la programación competitiva en C ++: lista de adyacencia o matriz de adyacencia?
- En lenguajes como C y C ++, ¿por qué las matrices tienen que ser de tamaño constante?
- Cómo escribir un programa ruby para mostrar los números de Armstrong en una matriz (siendo la matriz; Números = [123,124,153,370,234,23,45]
- ¿Cómo podemos generar k enteros aleatorios únicos en el rango [1 ... n] con igual probabilidad?
- ¿ISRO emplea el aprendizaje automático en alguno de sus sistemas de trabajo actuales?
La cuestión es que este “truco del núcleo” se puede aplicar a muchos algoritmos lineales: regresión de cresta, vecinos más cercanos, regresión logística y el perceptrón. Además, la transformación de la característica con alguna función que genera un conjunto de características polinómicas es muy común entre todos los algoritmos lineales.
En general, las matemáticas detrás de la SVM son un poco más complicadas (pero aún factibles) que la regresión logística y la regresión lineal, por lo que comenzaría aprendiendo y dominando esos modelos, ya que le proporcionarán algunas herramientas esenciales (como calcular derivadas parciales, el algoritmo de descenso de gradiente y el principio de estimación de máxima verosimilitud y minimización empírica del riesgo), que se pueden utilizar para comprender mejor las SVM.