Cuando uno usa la función de pérdida al cuadrado para la regresión, ¿significa que asume implícitamente que está agregando ruido gaussiano con la misma varianza?

Sospecho que la respuesta es sí (aunque la confirmación sería buena), está asumiendo la misma variación.

La razón por la que sospecho que esto se debe a la siguiente derivación de máxima probabilidad que produce la “justificación” de la función de error al cuadrado:

¿Cómo es el nano grado de aprendizaje automático de Udacity en comparación con la especialización de aprendizaje automático de Coursera, cuál es mejor?
¿Cuáles son las debilidades del algoritmo estándar k-means (también conocido como algoritmo de Lloyd)?
¿Cuáles son algunos problemas de aprendizaje automático que están más allá del poder de scikit-learn para resolver?
Después de lograr una precisión de aproximadamente el 82% en los datos de prueba mediante regresión logística, ¿cómo puedo estar seguro / seguro de que mi algoritmo se generalizará bien para toda la población?
¿Cómo se aplica el aprendizaje automático en genética o biología molecular?

observe la penúltima línea matemática. En esa línea después de que el registro elimina el exp, también se factoriza el término [math] \ frac {1} {\ sigma ^ 2} [/ math]. Si la desviación dependiera por punto de datos, entonces uno no podría hacer esa factorización. Lo que significa que probablemente uno está asumiendo eso.

Nota técnica: tenga en cuenta que el factor delante de la exp (normalización) probablemente también cambiaría el pdf y podría depender de cada punto de datos, aunque no estoy seguro de cómo eso cambiaría mi argumento, aunque intuitivamente, si alguien tiene algunos datos los puntos tienen más ruido que otros y nosotros “mágicamente” lo sabíamos, está destinado a afectar el algoritmo en alguna parte. Mi intuición es que si queremos minimizar el “error”, parece mejor intentar copiar la mayoría de los puntos con un error bajo que los que tienen un error alto, ya que sabemos que es muy probable que sean correctos. Alternativamente, uno supondría que es inútil copiar puntos de datos muy ruidosos porque, independientemente de lo que digan los datos reales, ya que tienen mucho ruido, lo que usted diga les generará un alto costo, así que solo diga cualquier cosa y esencialmente ignore esos.

Derivación prestada de https://datajobs.com/data-scienc…[Andrew-Ngfont>.pdf página 13.