¿Existe una diferencia práctica y significativa entre los términos ‘función objetivo’ y ‘función de pérdida’ en el aprendizaje profundo?

Diferentes autores usan los términos de manera diferente.

Algunos autores asignan significados específicos a “pérdida”, “costo” y “función de error”, pero no existe una convención ampliamente aceptada.

La única excepción real es la “función objetivo”. Esto se usa constantemente para ser un término para una función que queremos optimizar, sin especificar si queremos maximizarla o minimizarla.

Wikipedia parece usar todos los términos diferentes, excepto “función objetivo”, indistintamente: Función de pérdida – Wikipedia

El libro de texto de Chris Bishop, Pattern Recognition and Machine Learning, describe las funciones de costo y de pérdida como lo mismo (página 41 de la edición impresa).

En Deep Learning (www.deeplearningbook.org), mis coautores y yo decidimos definir “función de costo” y “función de pérdida” como sinónimos, porque no encontramos una diferencia consistente entre ellos en la literatura.

Sí, hay una diferencia.

La función de pérdida mide la diferencia entre la etiqueta predicha y la etiqueta de verdad fundamental. Una función de pérdida general se puede escribir como [matemática] L (\ hat {y}, y) [/ matemática], donde [matemática] \ hat {y} [/ matemática] es la etiqueta pronosticada, y [matemática] y [ / math] es la etiqueta de verdad básica. Por ejemplo, la pérdida cuadrada es [matemática] L (\ hat {y}, y) = (\ hat {y} – y) ^ 2 [/ matemática], la pérdida de bisagra es [matemática] L (\ hat {y}, y) = \ max \ {0, 1 – \ hat {y} y \} [/ math], y así sucesivamente.

Tenga en cuenta que la función de pérdida es una terminología de aprendizaje automático, que tiene sentido solo en los casos en que tiene una noción de predicción y etiquetas.

La función objetiva, por otro lado, es un concepto mucho más general, que proviene de la optimización. Cualquier problema de optimización implica dos entidades: (1) la función objetivo, que es la función a maximizar / minimizar, y (2) un conjunto de restricciones. El conjunto de restricciones es opcional, lo que da lugar a problemas de optimización sin restricciones.


Ahora veamos algunos ejemplos para ver la diferencia entre los dos:

  • Mínimos cuadrados ordinarios (MCO): este es el ejemplo de regresión más simple. Se le da un conjunto de valores [matemática] \ {(x_1, y_1), \ ldots, (x_ {n}, y_ {n}) \} [/ matemática], y desea ajustar una línea a estos puntos. Entonces, asume que el modelo verdadero es [math] y = \ beta ^ Tx [/ math]. Luego, minimiza la siguiente cantidad para encontrar [math] \ beta [/ math] óptima.

[matemáticas] \ arg \ min _ {\ beta} \ sum_ {i = 1} ^ {n} (\ beta ^ Tx_ {i} – y_ {i}) ^ 2 [/ matemáticas]

La función anterior es la pérdida al cuadrado, y también es la función objetivo (porque esta es la cantidad que estamos optimizando). Entonces la función de pérdida y las funciones objetivas son idénticas aquí.

  • Regresión de cresta: es similar a OLS, excepto que tiene un término de regularización en [math] \ beta [/ math]. Entonces la cantidad que optimizas es la siguiente:

[matemáticas] \ arg \ min _ {\ beta} \ sum_ {i = 1} ^ {n} (\ beta ^ Tx_ {i} – y_ {i}) ^ 2 + \ lambda \ beta ^ T \ beta [/ matemáticas ]

Esto asegura que su [matemática] \ beta [/ matemática] no sea muy compleja, de modo que no se ajuste al ruido en los datos. Aquí, la función anterior es la función objetivo nuevamente, porque es la cantidad que se minimiza. Sin embargo, solo el primer término es la función de pérdida. Entonces, la función objetivo aquí es una función de pérdida más un término de regularización .

  • Estimación de máxima verosimilitud (MLE): suponga que tiene una moneda que sale cara con probabilidad desconocida [matemática] p [/ matemática], y cruz de lo contrario. Dados 100 sorteos con 42 caras y 58 colas, ¿cuál es el valor más probable de [matemáticas] p [/ matemáticas]? Para resolver dicha pregunta, calcula la probabilidad de generar los datos para un valor dado de [math] p [/ math] – esto será [math] p ^ {42} (1-p) ^ {58} [/ matemáticas]. Ahora, el valor más probable para generar los datos es el valor de p para el cual la cantidad anterior es máxima. Entonces, resuelve el siguiente problema de optimización:

[matemáticas] \ arg \ max_ {p} p ^ {42} (1-p) ^ {58} [/ matemáticas]

Una vez más, la expresión anterior es su función objetivo. Sin embargo, no hay una función de pérdida aquí. Porque no existe una noción de predicción, verdad fundamental, etc.

La función objetivo, la función de pérdida y la función de costo son lo mismo en el aprendizaje automático.

La pérdida cuadrada, la pérdida de entropía cruzada, etc. son funciones de costo específicas. Por ejemplo, la pérdida cuadrada mide la distancia al cuadrado entre la etiqueta verdadera y la salida que obtuvo.

En DL, la función de pérdida es la función objetivo. Creo que no tienen gran diferencia en DL.