La forma en que pienso sobre estas preguntas es preguntarme qué propiedad tendría el (/ a) minimizador.
En este caso, [math] P [/ math] es una función algo arbitraria; para que sea útil en este contexto, normalmente asumimos que asignará funciones [math] f [/ math] en los reales no negativos [math] \ mathbb {R} ^ + [/ math].
Muy en general, si alguna [matemática] \ hat {f} [/ matemática] minimiza [matemática] H [/ matemática] eso significa que cambiar ligeramente esa función en alguna dirección debería hacer que [matemática] H [/ matemática] sea más grande. Eso significa que debemos entender cómo cada una de las dos partes de esa ecuación “se hace más grande”.
- ¿Cuáles son las preguntas más importantes en el aprendizaje automático?
- Cómo predecir cuándo ocurrirá el próximo evento (tiempo) usando variables cuantitativas independientes
- ¿Cuáles son las mejores universidades para estudiar visión artificial con un enfoque en aprendizaje profundo?
- ¿Cuáles son los formatos estándar para compartir datos de aprendizaje automático?
- ¿Qué tan perspicaz es el artículo de arXiV: [1504.00641] Una teoría probabilística del aprendizaje profundo? ¿Extiende nuestra comprensión del aprendizaje profundo y presenta un marco unificador?
Primera parte
Suponga que [math] y ^ {(i)}, f (x_i) [/ math] son ambos vectores. Deje [math] z ^ {(i)} = y ^ {(i)} – f (x_i) [/ math]
[matemática] \ left \ lVert z ^ {(i)} \ right \ rVert ^ 2_2 [/ math] es el cuadrado de la norma euclidiana (ver: Norma (matemáticas)) y si cada componente (dimensión) de [matemática ] z ^ {(i)} [/ math] se escribe como [math] z ^ {(i)} _ j [/ math] y hay dimensiones [math] p [/ math] en total, podemos escribir la suma sobre las normas como:
[matemáticas] \ sum_ {i = 1} ^ N \ left \ lVert z ^ {(i)} \ right \ rVert ^ 2_2 = \ sum_ {i = 1} ^ N \ sum_ {j = 1} ^ p \ left (z ^ {(i)} _ j \ right) ^ 2 [/ math]
Ahora tenemos algo simple: una suma sobre una suma sobre diferencias cuadráticas de componentes. Si se sintió cómodo con la versión unidimensional (escalar) del problema, puede pensar en esto como una sola suma con nuevos índices que son pares [matemática] (i, j) [/ matemática], es decir, solo una larga suma o un vector largo.
Ok, entonces, ¿qué significa para una función [matemática] \ hat {f} [/ matemática] minimizar este término (ignorando temporalmente la segunda parte de la ecuación)? Algo así como el cálculo diferencial hará: queremos asegurarnos de que cualquier perturbación en [math] f (x_i) _j [/ math] (“el componente jth del vector [math] f (x_i) [/ math]”) haz la suma más grande.
Segunda parte
Este es un abuso común de la notación: la norma para [matemáticas] \ left \ lVert Pf \ right \ rVert [/ math] es una norma de espacio funcional, probablemente una norma [matemática] L ^ p [/ matemática] (ver: Lp espacio). Minimizar esta parte, ya sea en el caso unidimensional o multidimensional, es esencialmente el mismo tipo de problema: necesitará saber qué “se ven” las derivadas para ese espacio. En el artículo que citó, que es bastante clásico (¡felicitaciones por leer la literatura!), Trabajan con la norma L2, que resulta ser esencialmente un problema de vector / matriz también. La forma en que esto funciona es encontrar una base para el espacio funcional y hacer álgebra esencialmente lineal en este espacio (infinito-dimensional). De esa manera, puede hacer algo que se parece a un cálculo basado en componentes como lo hicimos anteriormente. Para hacer esto, necesita algo llamado teorema de representación de Riesz que le permite hacer una versión de dimensiones infinitas del proceso de Gram-Schmidt.
Todo esto es para lograr una idea simple: tenemos un espacio de funciones en el que [math] f [/ math] vive, y para que podamos comparar dos funciones en ese espacio, hacemos algo que es como comparar estas funciones “en función de los componentes “. Si podemos hacer eso, podemos medir [matemática] \ left \ lVert Pf \ right \ rVert [/ math] – o más importante, calcular efectivamente [matemática] \ left \ lVert Pf \ right \ rVert – \ left \ lVert Pg \ right \ rVert [/ math] para dos funciones [math] f, g [/ math]. Si elegimos una configuración agradable, esto se verá como [math] \ left \ lVert P (fg) \ right \ rVert [/ math] que podremos entender, porque [math] fg [/ math] en El espacio de funciones en el que estamos trabajando, y con la base que hemos elegido, será la resta por componentes.
Todos juntos querían saber cómo extender la idea de minimización univariada al caso de dimensiones múltiples (¡e infinitas!). Los trazos generales son que terminamos “tomando derivados sobre cada componente” – el único bit complicado es saber cómo encontrar componentes para el espacio de funciones.