La complejidad computacional de la minimización empírica del riesgo depende de la clase de hipótesis y la función de pérdida que define el riesgo. Por ejemplo, ERM para la regresión lineal con la pérdida de cuadrados (mínimos cuadrados ordinarios) se puede resolver en tiempo polinómico. Pero ERM para una red neuronal estándar de 3 capas para pérdida 0/1 es NP-Complete (Blum, Avrim L. y Ronald L. Rivest. “Entrenar una red neuronal de 3 nodos es NP-complete”. Redes neuronales 5.1 ( 1992): 117-127.)
ERM para pérdida de 0/1 a menudo es difícil porque en muchos casos puede convertir instancias de problemas de satisfacción booleana dura en problemas de ERM con esta pérdida.
Afortunadamente, aunque a menudo medimos el rendimiento del aprendizaje automático en términos de pérdida 0/1 (p. Ej., Porcentaje de error, F1 y medidas relacionadas), no es crítico usar la pérdida 0/1. De hecho, cualquier “regla de puntuación adecuada” puede generar probabilidades condicionales correctas, y estas suelen ser más útiles que simplemente minimizar la pérdida de 0/1. Un inconveniente adicional de la pérdida 0/1 es que no es diferenciable, por lo que los algoritmos de búsqueda locales basados en el descenso de gradiente no se pueden aplicar directamente. Esta es otra razón por la que preferimos las funciones de pérdida, como el error al cuadrado y la pérdida de registro.
- ¿Puedo obtener una breve descripción general del documento 'Generación precisa de hologramas utilizando el método basado en capas y el algoritmo de transformación de Fourier iterativo'?
- ¿Cómo se copia el contenido de un árbol de búsqueda binario que tiene emparejamientos K, V?
- ¿Qué tiene de malo el algoritmo de recomendación de la historia de Quora?
- ¿Cuál es la elección ideal de algoritmos, bibliotecas en PNL y aprendizaje automático para construir un bot de chat?
- ¿Cómo podemos verificar si un punto (digamos el origen) se encuentra en un casco convexo 6-D (o ND) y qué tan lejos está el punto de cualquiera de los lados (facetas) del casco convexo?