¿Por qué la suma es una buena forma de combinar múltiples objetivos para entrenar una red neuronal? ¿Hay alternativas?

La suma es lo más simple que puede hacer con dos objetivos, de modo que maximizar (o minimizar) el objetivo combinado probablemente haga lo mismo con (al menos uno de) los subyacentes. En otras palabras, es como una disyunción (o), donde desea aumentar / disminuir cada objetivo por separado. También puede examinar cada uno de los objetivos y comprender fácilmente cómo cada uno contribuye a la suma. Tiene una ventaja adicional de que los gradientes resultantes se pueden calcular por separado para cada parte, lo cual es bastante eficiente.

En la práctica, por supuesto, es muy común no solo agregar los objetivos, sino también escalarlos con algún hiperparámetro, lo que representa la importancia que cree que tiene cada uno.

Por supuesto que hay alternativas, es prácticamente ilimitado lo que puedes hacer. Por ejemplo, si lo que busca es la conjunción, donde desea que todos los objetivos aumenten o disminuyan de forma correlacionada, puede usar el producto. Por supuesto, el producto es solo una suma en el espacio de registro nuevamente, por lo que no es muy diferente.