¿Cuándo la pérdida cuadrada no es buena para la función de pérdida para la regresión?

Dos funciones de pérdida muy utilizadas son la pérdida al cuadrado, $\text{[math]}$ y la pérdida absoluta $\text{[math]}$ . Sin embargo, la pérdida absoluta tiene la desventaja de que no es diferenciable en $\text{[math]}$ . La pérdida al cuadrado tiene la desventaja de que tiene la tendencia a ser dominada por valores atípicos, cuando se suma a un conjunto de $\text{[math]}$ ‘s (como en $\text{[math]}$ ), la suma final tiende a ser el resultado de unos pocos valores a particularmente grandes, en lugar de una expresión del valor a promedio.

Aprendizaje automáticoEstadística (disciplina académica)Matemáticas y Aprendizaje automático

Related Content

¿Cómo aprende IBM Watson de los libros y documentos médicos?

Cómo explicar el desempeño de un modelo predictivo a la gerencia que no conoce el aprendizaje automático

¿Existe una definición matemática para una máquina de vectores de soporte?

En el aprendizaje profundo, ¿son el "aprendizaje incremental" y el "aprendizaje de transferencia" el mismo enfoque?

Para comenzar en los roles de la ciencia de datos, ¿los cursos de Jigsaw Academy o Coursera son lo suficientemente buenos?

¿Cuál es una buena manera de entender la maldición de la alta dimensión en el aprendizaje automático?

¿Cuáles son los mejores sitios web para encontrar un compañero de viaje extraño?

La idea detrás de la “pérdida” es que mide la improbabilidad de un ajuste. Si cree que el valor en x es A (x) (algunos datos ruidosos), desea minimizar la probabilidad de obtener A (x) dado que el valor verdadero es f (x).

En este caso, crea un modelo de error gaussiano, dice que la probabilidad de estar en A si se supone que está en f es

exp (- C (A (x) – f (x)) ^ 2)

con algo de C constante, y hasta la normalización. Este es un modelo de error “unimodal”, porque la probabilidad tiene un golpe, si grafica exp (-Cx ^ 2) en función de x, tiene un pico único.

Luego, la probabilidad de que la función f (x) sea correcta se encuentra multiplicando todos los errores gaussianos. Como la multiplicación es complicada, tomas el registro y dices que estás sumando la probabilidad de registro. Este es el error de suma al cuadrado: el error de suma al cuadrado es el registro de la probabilidad total de los datos dada la presunta cosa que está ajustando.

La universalidad de la distribución gaussiana de errores (el teorema del límite central) es la justificación para usar este modelo. Los errores que se componen de la suma de muchos pequeños errores aleatorios siempre se distribuyen en Gauss cuando hay suficientes componentes en la suma.

Algo multimodal sucede cuando tiene dos posibles valores de mejor ajuste: A (x) o B (x). En este caso, la probabilidad de que f (x) sea correcta tiene dos picos, uno cuando f (x) = A (x) y el otro cuando f (x) = B (x), con pesos correspondientes a la probabilidad de que A y B deben ser correctos respectivamente.

Entonces, la función de distribución de probabilidad que desea se idealiza como una suma de gaussianos, o una exponencial de un cuarto, algo con dos picos:

exp (- C (A (x) – f (x)) ^ 2) + exp (- C ‘(B (x) -f (x)) ^ 2)

Para combinar los exponenciales, toma el registro de la suma, y este es un gran lío para hacer cualquier cosa, como lo es cualquier distribución de dos picos.

Todo lo que dice el libro es que la “desviación de suma cuadrada” es un buen modelo cuando la probabilidad de tener la razón tiene un pico, es decir, una mejor conjetura sobre dónde se supone que debe pasar lo verdadero, pero un modelo pésimo cuando hay más de una mejor conjetura sobre dónde se supone que debe pasar la cosa.

En cualquier caso, si tiene un modelo de probabilidad, puede maximizarlo usando Montecarlo, para encontrar el mejor ajuste estocástico. Cuando se trata de mínimos cuadrados, puede encontrar el mejor ajuste simplemente bajando la probabilidad o resolviendo una ecuación lineal.

Ron Maimon

More Interesting

¿Cómo se usa el cálculo vectorial en el aprendizaje automático?

¿Qué son los núcleos en aprendizaje automático y SVM y por qué los necesitamos?

¿Cómo se relaciona el algoritmo RANSAC con la visión por computadora?

¿Qué necesitan saber los desarrolladores de aplicaciones sobre Siri para interactuar con él?

¿Qué áreas del aprendizaje automático son más importantes para los fondos de cobertura y los bancos de inversión (en equipos cuantitativos)?

¿Cuáles son los algoritmos estándar para la inferencia en redes bayesianas?

Redes neuronales artificiales: ¿Por qué las partes internas de las neuronas se simulan con una suma lineal de entradas en lugar de alternativas no lineales?

¿Cuáles son los criterios principales para la inicialización de los pesos en el aprendizaje profundo? Si quiero diseñar un algoritmo para la inicialización del peso, ¿qué factores debo tener en cuenta?

Cómo calcular la similitud de coseno entre tweets

¿Es legal el raspado web para hacer aprendizaje automático?

¿Cuál es una buena referencia para aprender cómo implementar y usar la búsqueda de línea para la optimización?

Cómo construir sobre modelos de red profunda de detección de objetos pre-entrenados (YOLO) para detectar nuevas clases

¿Cuál es el algoritmo de aprendizaje automático más rápido para implementar para la detección de fraudes?

¿Cuál es la forma correcta de calcular la similitud de coseno entre una consulta y un documento? Cuando calculo la magnitud del documento, ¿sumo los cuadrados de todos los términos del documento o solo los de la consulta?

¿Se utiliza Machine Learning fuera de las startups y otras "nuevas" empresas?

Web Analytics