¿Existe una diferencia práctica y significativa entre los términos ‘función objetivo’ y ‘función de pérdida’ en el aprendizaje profundo?

Diferentes autores usan los términos de manera diferente.

Algunos autores asignan significados específicos a “pérdida”, “costo” y “función de error”, pero no existe una convención ampliamente aceptada.

La única excepción real es la “función objetivo”. Esto se usa constantemente para ser un término para una función que queremos optimizar, sin especificar si queremos maximizarla o minimizarla.

Wikipedia parece usar todos los términos diferentes, excepto “función objetivo”, indistintamente: Función de pérdida – Wikipedia

El libro de texto de Chris Bishop, Pattern Recognition and Machine Learning, describe las funciones de costo y de pérdida como lo mismo (página 41 de la edición impresa).

En Deep Learning (www.deeplearningbook.org), mis coautores y yo decidimos definir “función de costo” y “función de pérdida” como sinónimos, porque no encontramos una diferencia consistente entre ellos en la literatura.

Aprendizaje automáticoAprendizaje profundoRedes neuronales artificiales

¿Cómo puede Google diseñar un procesador más adecuado para el entrenamiento de redes neuronales profundas que la GPU?

¿Puedo crear un programa de aprendizaje automático en otro idioma que no sea un flujo de tensor o scikit-learn?

¿Cuáles son los mejores algoritmos para el conjunto de datos de preservación de la privacidad?

¿Por qué la distribución previa no tiene mucho impacto en la distribución posterior cuando tenemos muchos datos?

¿Por qué las redes neuronales profundas no pueden extraer la estacionalidad de las series de tiempo?

¿Puede un contador estar completamente automatizado para 2030? Si es así, ¿cuál es la mejor manera de salvar mi trabajo?

Sí, hay una diferencia.

La función de pérdida mide la diferencia entre la etiqueta predicha y la etiqueta de verdad fundamental. Una función de pérdida general se puede escribir como [matemática] L (\ hat {y}, y) [/ matemática], donde [matemática] \ hat {y} [/ matemática] es la etiqueta pronosticada, y [matemática] y [ / math] es la etiqueta de verdad básica. Por ejemplo, la pérdida cuadrada es [matemática] L (\ hat {y}, y) = (\ hat {y} – y) ^ 2 [/ matemática], la pérdida de bisagra es [matemática] L (\ hat {y}, y) = \ max \ {0, 1 – \ hat {y} y \} [/ math], y así sucesivamente.

Tenga en cuenta que la función de pérdida es una terminología de aprendizaje automático, que tiene sentido solo en los casos en que tiene una noción de predicción y etiquetas.

La función objetiva, por otro lado, es un concepto mucho más general, que proviene de la optimización. Cualquier problema de optimización implica dos entidades: (1) la función objetivo, que es la función a maximizar / minimizar, y (2) un conjunto de restricciones. El conjunto de restricciones es opcional, lo que da lugar a problemas de optimización sin restricciones.

Ahora veamos algunos ejemplos para ver la diferencia entre los dos:

Mínimos cuadrados ordinarios (MCO): este es el ejemplo de regresión más simple. Se le da un conjunto de valores [matemática] \ {(x_1, y_1), \ ldots, (x_ {n}, y_ {n}) \} [/ matemática], y desea ajustar una línea a estos puntos. Entonces, asume que el modelo verdadero es [math] y = \ beta ^ Tx [/ math]. Luego, minimiza la siguiente cantidad para encontrar [math] \ beta [/ math] óptima.

[matemáticas] \ arg \ min _ {\ beta} \ sum_ {i = 1} ^ {n} (\ beta ^ Tx_ {i} – y_ {i}) ^ 2 [/ matemáticas]

La función anterior es la pérdida al cuadrado, y también es la función objetivo (porque esta es la cantidad que estamos optimizando). Entonces la función de pérdida y las funciones objetivas son idénticas aquí.

Regresión de cresta: es similar a OLS, excepto que tiene un término de regularización en [math] \ beta [/ math]. Entonces la cantidad que optimizas es la siguiente:

[matemáticas] \ arg \ min _ {\ beta} \ sum_ {i = 1} ^ {n} (\ beta ^ Tx_ {i} – y_ {i}) ^ 2 + \ lambda \ beta ^ T \ beta [/ matemáticas ]

Esto asegura que su [matemática] \ beta [/ matemática] no sea muy compleja, de modo que no se ajuste al ruido en los datos. Aquí, la función anterior es la función objetivo nuevamente, porque es la cantidad que se minimiza. Sin embargo, solo el primer término es la función de pérdida. Entonces, la función objetivo aquí es una función de pérdida más un término de regularización .

Estimación de máxima verosimilitud (MLE): suponga que tiene una moneda que sale cara con probabilidad desconocida [matemática] p [/ matemática], y cruz de lo contrario. Dados 100 sorteos con 42 caras y 58 colas, ¿cuál es el valor más probable de [matemáticas] p [/ matemáticas]? Para resolver dicha pregunta, calcula la probabilidad de generar los datos para un valor dado de [math] p [/ math] – esto será [math] p ^ {42} (1-p) ^ {58} [/ matemáticas]. Ahora, el valor más probable para generar los datos es el valor de p para el cual la cantidad anterior es máxima. Entonces, resuelve el siguiente problema de optimización:

[matemáticas] \ arg \ max_ {p} p ^ {42} (1-p) ^ {58} [/ matemáticas]

Una vez más, la expresión anterior es su función objetivo. Sin embargo, no hay una función de pérdida aquí. Porque no existe una noción de predicción, verdad fundamental, etc.

Ismail Elezi

La función objetivo, la función de pérdida y la función de costo son lo mismo en el aprendizaje automático.

La pérdida cuadrada, la pérdida de entropía cruzada, etc. son funciones de costo específicas. Por ejemplo, la pérdida cuadrada mide la distancia al cuadrado entre la etiqueta verdadera y la salida que obtuvo.

Ismail Elezi

En DL, la función de pérdida es la función objetivo. Creo que no tienen gran diferencia en DL.

Rolan Veron Cruz

More Interesting

¿Qué áreas de ciencia de datos o aprendizaje automático están creciendo en importancia?

¿Cómo se recupera la información de las cajas negras?

¿Por qué visualizamos filtros en redes neuronales convolucionales? ¿No son los filtros solo conjuntos de pesas? ¿De qué sirve tratar un conjunto de pesas como una imagen?

¿Qué área de la PNL es más prometedora y gana más tracción en la industria: la PNL sobre los datos de voz frente a texto?

¿Cuáles son algunos de los documentos fundamentales sobre el aprendizaje profundo?

¿Cuál es la relación entre física y aprendizaje automático / IA?

¿Cuál es la mejor manera de aprender la regresión logística?

¿Se puede usar tensorflow en SVM?