¿Por qué una función del núcleo debe satisfacer la condición de Mercer?

En 1995, Cortes y Vapnik publicaron el primer artículo sobre SVM [1]. SVM es en realidad un clasificador lineal, es decir, clasifica entre dos conjuntos de puntos al construir una línea que separa estas dos clases. Esto está bien siempre y cuando los dos conjuntos de puntos puedan estar separados por una línea, pero ¿qué pasa si eso no es posible?

Cortes y Vapnik, en cambio, hicieron lo siguiente, mapearon todos sus puntos a través de una función no lineal y luego usaron SVM en este espacio transformado. La observación fue que si el mapa no lineal que usaron mapea los dos conjuntos de puntos de manera que los dos conjuntos de puntos pueden separarse por una línea después de la transformación, entonces SVM puede usarse en este espacio transformado en lugar del espacio original. ¿Pero cómo encontrar este mapa no lineal que ayudaría a separar los dos conjuntos de puntos?

Deje que [math] \ phi: \ mathcal {X} \ mapsto \ mathcal {F} [/ math] sea el mapa no lineal descrito en el párrafo anterior, donde [math] \ mathcal {X} [/ math] es el espacio de donde provienen los puntos de entrada y [math] \ mathcal {F} [/ math] es el espacio transformado. La siguiente observación realizada por los autores fue que, para que SVM funcione, no necesitan saber [matemáticas] \ phi [/ matemáticas] explícitamente, sino que solo necesitan saber [matemáticas] \ langle \ phi (x_i), \ phi (x_j) \ rangle [/ math], que es el producto escalar de los puntos transformados. Entonces, en lugar de trabajar con [math] \ phi [/ math], pueden trabajar con [math] K: \ mathcal {X} \ times \ mathcal {X} \ mapsto \ mathbb {R} [/ math] donde [math] K [/ math] toma dos puntos como entrada y devuelve un valor real que representa [math] \ langle \ phi (x_i), \ phi (x_j) \ rangle [/ math]. Sin embargo, ¿puede cualquier elección arbitraria de [matemáticas] K [/ matemáticas] garantizar la existencia de [matemáticas] \ phi [/ matemáticas]? [1] cita documentos donde muestran que [math] \ phi [/ math] existe solo cuando [math] K [/ math] es positivo definitivo.

Por lo tanto, [math] K [/ math] siendo positivo definido (que satisface la condición de Mercer) garantiza la existencia de un mapa subyacente [math] \ phi [/ math], tal que [math] K (x_i, x_j) = \ langle \ phi (x_i), \ phi (x_j) \ rangle [/ math]. ¡Esto nos permitió seleccionar núcleos de tal manera que el mapa subyacente podría incluso ser un vector infinito! (Ejemplo: núcleos gaussianos) Sin embargo, esto todavía no garantiza la separación de puntos, por lo que tenemos SVM de margen blando. Pero poder ejecutar SVM en un espacio dimensional infinito sigue siendo bastante poderoso, ya que aún cubre una amplia gama de clases de función sobre el espacio de entrada [math] \ mathcal {X} [/ math].

Nota al margen: aunque digo que SVM se publicó por primera vez en 1995, la gente observó más tarde que Kimeldorf y Wahba estudiaron una forma similar a principios de 1971 [2], quienes probaron un caso especial de un teorema importante llamado teorema del representante. Scholkopf, Herbrich y Smola probaron una forma más general del teorema del representante en 2001 [3]. Este teorema asume explícitamente que los núcleos tienen que satisfacer la condición de Mercer y hacer declaraciones no solo sobre SVM, sino también para una clase más general de problemas de optimización. Estas lecturas requerirán algunos conocimientos básicos de reproducción de Kernel Hilbert Space (RKHS). Sugeriría leer el tutorial sobre RKHS de Hal Daume [4] para familiarizarse rápidamente con algunos de los conceptos básicos.

[1] Soporte de redes de vectores , Corrina Cortes y Vladimir Vapnik, página en image.diku.dk
[2] Algunos resultados sobre las funciones Tchebycheffian Spline , George Kimeldorf y Grace Wahba, http://www.stat.wisc.edu/~wahba/…
[3] Un teorema generalizado de representación , Bernhard Scholkopf, Ralf Herbrich y Alex Smola, página en smola.org
[4] De cero a reproducción Kernel Hilbert espacios en doce páginas o menos , Hal Daume, http://www.umiacs.umd.edu/~hal/d…

En términos prácticos, satisfacer la condición de Mercer significa que la matriz del núcleo es semidefinida positiva, lo que significa que el QP subyacente para el SVM en forma dual tiene un óptimo global único.

En teoría, los núcleos que no satisfacen la Condición M. no son productos de punto legítimos en algún espacio dimensional superior.

En lugar de afirmar que satisfacer la condición de Mercer requiere una matriz de kernel semi-definida positiva, yo diría que satisfacerla asegura la semi-definición positiva de la matriz de kernel. En ese caso, la naturaleza convexa de la formulación de optimización SVM (formulación dual) asegura que cualquier solución local encontrada por cualquier algoritmo de optimización convexa sea global, y que SVM se pueda resolver de manera eficiente.