Aprendizaje automático: ¿Cuál es la idea general de por qué minimizar la minimización empírica de riesgos es NP-Complete?

La complejidad computacional de la minimización empírica del riesgo depende de la clase de hipótesis y la función de pérdida que define el riesgo. Por ejemplo, ERM para la regresión lineal con la pérdida de cuadrados (mínimos cuadrados ordinarios) se puede resolver en tiempo polinómico. Pero ERM para una red neuronal estándar de 3 capas para pérdida 0/1 es NP-Complete (Blum, Avrim L. y Ronald L. Rivest. “Entrenar una red neuronal de 3 nodos es NP-complete”. Redes neuronales 5.1 ( 1992): 117-127.)

ERM para pérdida de 0/1 a menudo es difícil porque en muchos casos puede convertir instancias de problemas de satisfacción booleana dura en problemas de ERM con esta pérdida.

Afortunadamente, aunque a menudo medimos el rendimiento del aprendizaje automático en términos de pérdida 0/1 (p. Ej., Porcentaje de error, F1 y medidas relacionadas), no es crítico usar la pérdida 0/1. De hecho, cualquier “regla de puntuación adecuada” puede generar probabilidades condicionales correctas, y estas suelen ser más útiles que simplemente minimizar la pérdida de 0/1. Un inconveniente adicional de la pérdida 0/1 es que no es diferenciable, por lo que los algoritmos de búsqueda locales basados ​​en el descenso de gradiente no se pueden aplicar directamente. Esta es otra razón por la que preferimos las funciones de pérdida, como el error al cuadrado y la pérdida de registro.