¿Cómo probar formalmente que el producto de dos núcleos es un núcleo? Si K1 (x, x1) y K2 (x, x2) son ambas funciones del núcleo, entonces K1 (x, x1) K2 (x, x2) también es un núcleo

Para que un núcleo sea válido, debe corresponder a una reasignación de la entrada a un nuevo espacio de características. Es decir, [math] K (x, y) = \ sum_i \ phi_i (x) \ phi_i (y) [/ math] para algunos (potencialmente infinitos) conjuntos de funciones básicas.

Tenemos dos funciones de núcleo válidas y queremos demostrar que multiplicarlas juntas mantiene esta invariante, dejándonos con un nuevo núcleo. Esto requiere algo de álgebra:

[matemáticas] K ^ {(1)} (x, y) K ^ {(2)} (x, y) = (\ sum_ {i} \ phi ^ {(1)} _ i (x) \ phi ^ { (1)} _ i (y)) * (\ sum_ {j} \ phi ^ {(2)} _ j (x) \ phi ^ {(2)} _ j (y)) [/ math]

[matemáticas] K ^ {(1)} (x, y) K ^ {(2)} (x, y) = \ sum_ {i, j} \ phi ^ {(1)} _ i (x) \ phi ^ {(2)} _ j (x) \ phi ^ {(1)} _ i (y) \ phi ^ {(2)} _ j (y) [/ math]

Podemos definir [math] \ phi_k (z) = \ phi ^ {(1)} _ i (z) \ phi ^ {(2)} _ j (z) [/ math] porque cada [math] \ phi [/ math ] la función genera un escalar. Por lo tanto, finalmente podemos escribir:

[matemáticas] K_1 (x, y) K_2 (x, y) = \ sum_ {k} \ phi_k (x) \ phi_k (y) [/ matemáticas]

Esto muestra que el producto de dos núcleos crea una función con la misma invariante con la que comenzamos. Por lo tanto, el producto de dos núcleos es un núcleo.

Además, esto refleja una de las propiedades ordenadas de los núcleos. Después de multiplicar, nuestro espacio de características reasignadas es efectivamente más grande por un cuadrado. Sin embargo, en realidad no es necesario calcular las funciones reasignadas para usar un núcleo, por lo que nuestro costo computacional solo aumenta de forma lineal (porque solo necesitamos calcular las dos funciones del núcleo y multiplicar las salidas).

Tome el producto tensor de asignaciones apropiadas. Tenga en cuenta que el producto de puntos en el producto tensor es simplemente un producto de factores multiplicado.

More Interesting

¿En qué se diferencia un autoencoder (apilado) de un MLP, aparte de que los autoencoders aprenden funciones de identidad aproximadas?

¿Realizar el blanqueamiento de datos antes del entrenamiento mejora la capacidad de generalización de un SVM?

¿Qué cantidad de sistemas de recomendación se trata solo de usar el algoritmo correcto?

En una CNN, cuando la convolución se realiza entre 6 fuentes y 16 mapas como en LeNet, ¿cómo se hacen las convoluciones?

¿Hay nueva información sobre el tema X o la gente sigue copiando y pegando?

¿Qué son las vigas reforzadas sobrerreforzadas, subreforzadas y equilibradas?

¿Cuál es la diferencia entre gaussiano y bayesiano?

¿Cuál es la mejor técnica de aprendizaje automático para clasificar ~ 50,000 imágenes sin etiquetar (2-3% de ruido) en 3 clases diferentes?

¿Cuáles son algunas iniciativas de aprendizaje automático sobre datos sociales?

¿Cuáles son los principales avances en el procesamiento del lenguaje natural en 2015?

¿Dónde debo comenzar si quiero escribir un algoritmo de etiquetado y clasificación de oraciones?

¿Es legal el raspado web para hacer aprendizaje automático?

Cómo optimizar una red neuronal convolucional para hacer una clasificación de imágenes

¿Cuáles son los criterios principales para la inicialización de los pesos en el aprendizaje profundo? Si quiero diseñar un algoritmo para la inicialización del peso, ¿qué factores debo tener en cuenta?

¿Cuáles son las aplicaciones prácticas del análisis de componentes principales?