¿Cuál es una buena manera de entender la pérdida de Minkowski con una configuración diferente?

Considere la conocida pérdida al cuadrado para [matemáticas] q = 2 [/ matemáticas]. Se puede demostrar que el minimizador [math] y ^ * (.) [/ Math] de [math] \ mathbb {E} [L_2] (y) [/ math] es [math] y ^ * (\ mathbf x ) = \ mathbb {E} (t | X = \ mathbf x) [/ math]. Esta es precisamente la media condicional de [math] t [/ math] dada [math] X = \ mathbf x [/ math].

De manera similar, se puede argumentar que el minimizador para [matemática] q = 1 [/ matemática] en [matemática] X = \ mathbf x [/ matemática] es la mediana de [matemática] t | X = \ matemática x [/ matemática] (la mediana condicional) y para [math] q \ rightarrow 0 [/ math] es el modo de [math] t | X = \ mathbf x [/ math] (el modo condicional).

Sugerencias para mostrar el reclamo de [math] q = 2 [/ math]: Suma y resta [math] y ^ * (\ mathbf x) [/ math] y expande el cuadrado. Observe que el término cruzado es cero y, por lo tanto, concluya que [math] \ mathbb E (ty (\ mathbf x)) ^ 2 \ geq \ mathbb E (ty ^ * (\ mathbf x)) ^ 2 [/ math] para cualquier [matemáticas] y [/ matemáticas] para nuestra elección de [matemáticas] y ^ * [/ matemáticas].

Creo que la forma en que usan la media, la mediana y la moda se debe a la forma de la función.

More Interesting

¿Qué técnicas de aprendizaje automático se utilizan en la industria?

¿Cuál es el valor de un curso de Coursera sobre aprendizaje automático por Andrew Ng para solicitar una maestría en Estados Unidos en las 20 mejores universidades?

Aprendizaje profundo: ¿Por qué la función energética de la máquina de Boltzmann restringida se define de la manera en que se define?

¿Hay escasez de científicos de datos?

Con referencia a AdaBoost, ¿qué se entiende exactamente por 'ponderado' cuando se dice que entrena a un clasificador débil dada una distribución ponderada?

¿Qué significa que una modelo se sobreajuste?

Si solo aumento el número de capas de Neural Net simple con alguna función de activación, ¿lo convierte en Deep Learning?

¿Qué otros algoritmos de aprendizaje automático, además del aprendizaje profundo, se aplican ampliamente en aplicaciones comerciales?

¿Las redes de cápsulas reemplazarán a las redes neuronales?

¿Cuál es la diferencia entre agrupar sin PCA y agrupar con PCA?

¿Con qué frecuencia debe verificar el conjunto de validación durante el entrenamiento de la red neuronal en función de los ejemplos de entrenamiento (cada N ejemplos de entrenamiento)?

¿Puede el aprendizaje automático realizar un análisis de sentimientos de una palabra clave dada de una conversación?

¿Qué tan difícil es aprender el aprendizaje automático y el aprendizaje profundo si tienes un trabajo diario?

Cómo analizar páginas web a través de enlaces de Twitter

¿Cuáles son los mejores cursos de ciencia de datos en Udemy?