¿Cuál es una referencia para el truco del núcleo en los algoritmos de aprendizaje automático que es lo más matemáticamente detallado posible?

El truco del núcleo surge de la teoría de la reproducción de los espacios de Hilbert del núcleo (RKHS), por lo que el lugar adecuado para comenzar desde un punto de vista completamente “matemático” sería un libro de referencia sobre análisis funcional. Sin embargo, solo una pequeña parte se usa en la mayoría del aprendizaje automático basado en el núcleo. No estoy familiarizado con la mayoría de estos libros de texto, así que se lo dejaré a otra persona.

Para una introducción formal centrada principalmente en RKHS, una posibilidad es la primera parte de una monografía de 2015 publicada por Manton y Amblard [1]. Hay una versión de preimpresión accesible en arXiv si lo desea. Para un resumen de 12 páginas sobre los conceptos más importantes, hay un pequeño informe público de Hal Daumé III [2].

Las cosas son más variadas si te mueves hacia RKHS explícitamente cuando se aplica en un contexto de aprendizaje automático. La introducción más formal que se me ocurre es un libro de 2007 de Cucker y Zhou [2]. Ambos son matemáticos, lo que explica el rigor del libro de texto (Cucker es el autor del artículo seminal “Sobre los fundamentos matemáticos del aprendizaje”).

Moviéndose a la derecha en la escala aplicada, se encuentra el Capítulo 5 de “Fundamentos del aprendizaje automático” [4] (muy recomendable). Para una perspectiva más estadística, hay un artículo bien conocido escrito por Hofmann, Schölkopf y Smola que todavía es una referencia en el campo [5]. De nuevo, y hay una introducción muy menos formal (posiblemente más accesible para cualquiera) publicada en 2001 en IEEE TNN [6].

Actualizaré la respuesta si se me ocurren otras referencias. Esperemos que estos sean suficientes para comprender los núcleos desde cualquier punto de partida.

[1] Manton, JH, y Amblard, PO. “Una cartilla sobre la reproducción de Kernel Hilbert Spaces”. Foundations and Trends® en el procesamiento de señales 8, no. 1-2 (2015).

[2] Cucker, F. y Zhou, DX, 2007. Teoría del aprendizaje: un punto de vista de la teoría de la aproximación (Vol. 24). Prensa de la Universidad de Cambridge.

[3] Poggio, T. y Shelton, CR, 2002. Sobre los fundamentos matemáticos del aprendizaje. Sociedad Americana de Matemáticas , 39 (1), pp. 1-49.

[4] Mohri, M., Rostamizadeh, A. y Talwalkar, A., 2012. Fundamentos del aprendizaje automático . MIT press.

[5] Hofmann, T., Schölkopf, B. y Smola, AJ, 2008. Métodos de kernel en aprendizaje automático. Los anales de las estadísticas , pp.1171-1220.

[6] Muller, KR, Mika, S., Ratsch, G., Tsuda, K. y Scholkopf, B., 2001. Una introducción a los algoritmos de aprendizaje basados ​​en el núcleo. IEEE Transactions on Neural Networks , 12 (2), págs. 181-201.