Cuando uno usa la función de pérdida al cuadrado para la regresión, ¿significa que asume implícitamente que está agregando ruido gaussiano con la misma varianza?

Sospecho que la respuesta es sí (aunque la confirmación sería buena), está asumiendo la misma variación.

La razón por la que sospecho que esto se debe a la siguiente derivación de máxima probabilidad que produce la “justificación” de la función de error al cuadrado:

observe la penúltima línea matemática. En esa línea después de que el registro elimina el exp, también se factoriza el término [math] \ frac {1} {\ sigma ^ 2} [/ math]. Si la desviación dependiera por punto de datos, entonces uno no podría hacer esa factorización. Lo que significa que probablemente uno está asumiendo eso.

Nota técnica: tenga en cuenta que el factor delante de la exp (normalización) probablemente también cambiaría el pdf y podría depender de cada punto de datos, aunque no estoy seguro de cómo eso cambiaría mi argumento, aunque intuitivamente, si alguien tiene algunos datos los puntos tienen más ruido que otros y nosotros “mágicamente” lo sabíamos, está destinado a afectar el algoritmo en alguna parte. Mi intuición es que si queremos minimizar el “error”, parece mejor intentar copiar la mayoría de los puntos con un error bajo que los que tienen un error alto, ya que sabemos que es muy probable que sean correctos. Alternativamente, uno supondría que es inútil copiar puntos de datos muy ruidosos porque, independientemente de lo que digan los datos reales, ya que tienen mucho ruido, lo que usted diga les generará un alto costo, así que solo diga cualquier cosa y esencialmente ignore esos.


Derivación prestada de https://datajobs.com/data-scienc…[Andrew-Ngfont>.pdf página 13.

Gracias al comentario de Brando, me di cuenta de que mi siguiente respuesta es incorrecta.

No, no estamos asumiendo aquí un ruido gaussiano. Asumimos que las características son ortogonales entre sí, por lo que la distancia de un punto está dada por una ley cuadrada.

More Interesting

Cómo construir un reconocimiento de objetos basado en dispositivos móviles utilizando técnicas de aprendizaje automático

Para un maestro en aprendizaje automático, ¿cuál sería una mejor opción, KTH (MS en aprendizaje automático) o Chalmers (MS en sistemas adaptativos complejos)?

¿Dónde puedo comprar TPU para aprender el aprendizaje profundo?

¿Existe algún conjunto de datos disponible públicamente para la clasificación étnica / nacionalidad de los nombres humanos?

¿Crees que Robot puede realizar todas las tareas humanas con Deep Learning?

Procesamiento del lenguaje natural: ¿Cuáles son algunas ideas de problemas / proyectos sobre la clasificación jerárquica de textos?

¿Realizar el blanqueamiento de datos antes del entrenamiento mejora la capacidad de generalización de un SVM?

En Data Science, ¿cuáles son algunos proyectos específicos de la industria del juego?

¿Es posible comenzar a aprender y trabajar en el aprendizaje por refuerzo y el aprendizaje profundo sin un conocimiento previo sólido de otras clases de ML?

¿Cuál es su opinión sobre los rastros de elegibilidad para el aprendizaje de la diferencia temporal? ¿Es solo una asignación de crédito o un truco de aceleración?

¿Qué significa el valor propio de un hessiano en el aprendizaje automático?

¿Por qué el submuestreo de características u observaciones mejora el rendimiento de GBM?

Sistemas de recomendación: ¿Cuál es la diferencia entre el filtrado colaborativo de elemento a elemento y el filtrado basado en contenido?

¿Cuál es el asistente virtual personal más avanzado?

¿Cómo podemos hacer csv o dataset textual a partir de imágenes?