¿Qué hace que el núcleo de reproducción de espacios de Hilbert sea útil en el aprendizaje automático?

Es un poco difícil desacoplar el “truco del núcleo” de los RKHS; la forma en que respondería a esta pregunta es que los RKHS y el truco del núcleo pueden llegar sorprendentemente lejos. En general, la teoría RKHS es útil cuando queremos trabajar con familias de funciones de alta dimensión. Dado que una gran cantidad de ML se puede enmarcar como la selección de una función óptima de una gran familia de funciones o la manipulación de estas funciones de alta dimensión de alguna manera, la teoría RKHS ha terminado jugando un papel importante en ML. Aquí hay algunas maneras en que veo que los RKHS entran en juego en la literatura de ML. Todos están profundamente conectados con el truco del kernel, pero van más allá de simplemente reconocer que cierto algoritmo usa solo productos internos.

Cuantificación de la complejidad de la función:
Los RKHS nos brindan una manera efectiva en muchos entornos para cuantificar la ‘complejidad’ de una función. En particular, pensamos que las funciones con normas RKHS pequeñas son “simples” y las funciones con normas RKHS grandes son complicadas. Esta idea surge en las no paramétricas bayesianas, por ejemplo, como una forma de especificar una distribución previa en todo un espacio de funciones, un problema que surge si desea ajustar una función, digamos en regresión, y tener conocimiento previo sobre algunos de sus propiedades, como suavidad o periodicidad. Si desea un ejemplo concreto intuitivo, puede buscar procesos gaussianos con núcleos exponenciales al cuadrado, en los que las funciones con normas pequeñas se ven suaves y las funciones con normas grandes suelen ser más complicadas. La complejidad de la función medida por la norma RKHS también juega un papel en la optimización bayesiana, donde las personas han estudiado cómo las funciones que tienen una norma pequeña pueden ser más fáciles de optimizar en cierto sentido.

Teorema de representación: muchos problemas de aprendizaje (incluida la regresión del proceso gaussiano, mencionados anteriormente) se pueden enmarcar de la siguiente manera:

Dado un conjunto de datos X, encuentre una función f en un RKHS que minimice la suma de dos términos:
(1) una pérdida que se suma sobre el conjunto de datos (esta pérdida podría ser el error de predicción al cuadrado, por ejemplo), más
(2) un costo en la complejidad de la función de modo que predisponga la “simplicidad”.

Ahora esto puede parecer demasiado general ya que los RKHS son enormes y, a menudo, de dimensiones infinitas. Pero resulta que si puede escribir su función de penalización (es decir, su regularizador) como un costo monotónicamente creciente de la norma RKHS de su función, entonces su vida es mucho más fácil. El teorema del representador dice que la función óptima a usar es siempre una suma ponderada de las funciones del núcleo centradas en puntos en X. Este es un gran resultado porque convierte un problema de optimización dimensional potencialmente infinito en uno de dimensión finita. El conocido truco del kernel se basa en esta idea, pero el teorema del representante general cubre muchas más situaciones que les interesan a los estudiantes de máquinas.

Incrustaciones de distribución: una idea nueva en el aprendizaje automático es que las distribuciones se pueden poner en correspondencia con las funciones en un RKHS y podemos trabajar con estas funciones en lugar de las distribuciones subyacentes originales. Al igual que con el típico truco del kernel, esto es algo muy extraño en la superficie, porque trabajar con una función dimensional (a menudo) infinita parece algo que no podemos hacer que una computadora haga con mucha facilidad. Pero nuevamente, debido a los lindos trucos de RKHS-y, muchas operaciones probabilísticas útiles se pueden escribir como operaciones de álgebra lineal (como la multiplicación de matrices, productos tensoriales, etc.) en una matriz que se escala en el tamaño del conjunto de datos existente. Ahora, muchas estadísticas se reducen a operaciones algebraicas lineales de todos modos, pero el valor de la vista RKHS aquí es que no necesitamos hacer suposiciones fuertes sobre la forma de la distribución (como asumir Gaussianity).

En general, si eres un asistente de RKHS, serás mucho mejor al (1) convertir problemas de dimensiones infinitas en dimensiones finitas, y (2) convertir problemas extraños no lineales en problemas que se pueden resolver con álgebra lineal.