¿Cuál es el minimizador de [matemáticas] H [f] = \ sum ^ {N} _ {i = 1} \ | y ^ {(i)} – f (x_i) \ | ^ 2_ {2} + \ lambda \ | Pf \ | ^ 2 [/ math] cuando la salida es un vector?

La forma en que pienso sobre estas preguntas es preguntarme qué propiedad tendría el (/ a) minimizador.

En este caso, [math] P [/ math] es una función algo arbitraria; para que sea útil en este contexto, normalmente asumimos que asignará funciones [math] f [/ math] en los reales no negativos [math] \ mathbb {R} ^ + [/ math].

Muy en general, si alguna [matemática] \ hat {f} [/ matemática] minimiza [matemática] H [/ matemática] eso significa que cambiar ligeramente esa función en alguna dirección debería hacer que [matemática] H [/ matemática] sea más grande. Eso significa que debemos entender cómo cada una de las dos partes de esa ecuación “se hace más grande”.

Primera parte
Suponga que [math] y ^ {(i)}, f (x_i) [/ math] son ​​ambos vectores. Deje [math] z ^ {(i)} = y ^ {(i)} – f (x_i) [/ math]

[matemática] \ left \ lVert z ^ {(i)} \ right \ rVert ^ 2_2 [/ math] es el cuadrado de la norma euclidiana (ver: Norma (matemáticas)) y si cada componente (dimensión) de [matemática ] z ^ {(i)} [/ math] se escribe como [math] z ^ {(i)} _ j [/ math] y hay dimensiones [math] p [/ math] en total, podemos escribir la suma sobre las normas como:

[matemáticas] \ sum_ {i = 1} ^ N \ left \ lVert z ^ {(i)} \ right \ rVert ^ 2_2 = \ sum_ {i = 1} ^ N \ sum_ {j = 1} ^ p \ left (z ^ {(i)} _ j \ right) ^ 2 [/ math]

Ahora tenemos algo simple: una suma sobre una suma sobre diferencias cuadráticas de componentes. Si se sintió cómodo con la versión unidimensional (escalar) del problema, puede pensar en esto como una sola suma con nuevos índices que son pares [matemática] (i, j) [/ matemática], es decir, solo una larga suma o un vector largo.

Ok, entonces, ¿qué significa para una función [matemática] \ hat {f} [/ matemática] minimizar este término (ignorando temporalmente la segunda parte de la ecuación)? Algo así como el cálculo diferencial hará: queremos asegurarnos de que cualquier perturbación en [math] f (x_i) _j [/ math] (“el componente jth del vector [math] f (x_i) [/ math]”) haz la suma más grande.

Segunda parte
Este es un abuso común de la notación: la norma para [matemáticas] \ left \ lVert Pf \ right \ rVert [/ math] es una norma de espacio funcional, probablemente una norma [matemática] L ^ p [/ matemática] (ver: Lp espacio). Minimizar esta parte, ya sea en el caso unidimensional o multidimensional, es esencialmente el mismo tipo de problema: necesitará saber qué “se ven” las derivadas para ese espacio. En el artículo que citó, que es bastante clásico (¡felicitaciones por leer la literatura!), Trabajan con la norma L2, que resulta ser esencialmente un problema de vector / matriz también. La forma en que esto funciona es encontrar una base para el espacio funcional y hacer álgebra esencialmente lineal en este espacio (infinito-dimensional). De esa manera, puede hacer algo que se parece a un cálculo basado en componentes como lo hicimos anteriormente. Para hacer esto, necesita algo llamado teorema de representación de Riesz que le permite hacer una versión de dimensiones infinitas del proceso de Gram-Schmidt.

Todo esto es para lograr una idea simple: tenemos un espacio de funciones en el que [math] f [/ math] vive, y para que podamos comparar dos funciones en ese espacio, hacemos algo que es como comparar estas funciones “en función de los componentes “. Si podemos hacer eso, podemos medir [matemática] \ left \ lVert Pf \ right \ rVert [/ math] – o más importante, calcular efectivamente [matemática] \ left \ lVert Pf \ right \ rVert – \ left \ lVert Pg \ right \ rVert [/ math] para dos funciones [math] f, g [/ math]. Si elegimos una configuración agradable, esto se verá como [math] \ left \ lVert P (fg) \ right \ rVert [/ math] que podremos entender, porque [math] fg [/ math] en El espacio de funciones en el que estamos trabajando, y con la base que hemos elegido, será la resta por componentes.

Todos juntos querían saber cómo extender la idea de minimización univariada al caso de dimensiones múltiples (¡e infinitas!). Los trazos generales son que terminamos “tomando derivados sobre cada componente” – el único bit complicado es saber cómo encontrar componentes para el espacio de funciones.

More Interesting

¿Qué tan importante es la optimización de hiperparámetros en los modelos gráficos bayesianos, como la asignación de Dirichlet latente?

¿Cuáles son las ventajas de la distancia euclidiana y la distancia coseno, respectivamente?

¿Los LSTM tienen significativamente más parámetros que los RNN estándar?

¿Cuál es la divergencia KL entre un Gaussiano y un Student-t?

¿Cómo puede un estudiante de segundo año de Informática llegar al estudio del aprendizaje automático? ¿Cómo comienza uno?

¿Cómo se puede aplicar el aprendizaje automático en los campos de la ingeniería química y de procesos?

¿Cuáles son las desventajas y desventajas de usar el aprendizaje profundo?

Aprendizaje automático: Alex Casalboni: ¿Cuál es la mejor herramienta de ML para desenfocar caras (los tres tipos de visión izquierda, derecha y frontal) y placas en las imágenes?

Estoy muy interesado en el aprendizaje profundo. ¿Cómo puedo ser contratado?

¿Cuáles son los 10 mejores algoritmos de minería de datos o aprendizaje automático? En 2006, la Conferencia IEEE sobre minería de datos identificó los 10 algoritmos principales. ¿Siguen siendo válidos?

¿Qué motor de recomendación / personalización estándar ofrece recomendaciones utilizando tanto el aprendizaje automático como la entrada manual?

¿Cuáles son algunos proyectos geniales de aprendizaje automático que ha creado?

¿Qué lenguaje de programación debería elegir junto a Python si estoy interesado en el aprendizaje automático?

¿Cuáles son las mejores técnicas para crear vectores de oraciones para el procesamiento del lenguaje natural?

Cómo interpretar los resultados de R después del análisis en las organizaciones