Aprendizaje automático: ¿Cuál es la idea general de por qué minimizar la minimización empírica de riesgos es NP-Complete?

La complejidad computacional de la minimización empírica del riesgo depende de la clase de hipótesis y la función de pérdida que define el riesgo. Por ejemplo, ERM para la regresión lineal con la pérdida de cuadrados (mínimos cuadrados ordinarios) se puede resolver en tiempo polinómico. Pero ERM para una red neuronal estándar de 3 capas para pérdida 0/1 es NP-Complete (Blum, Avrim L. y Ronald L. Rivest. “Entrenar una red neuronal de 3 nodos es NP-complete”. Redes neuronales 5.1 ( 1992): 117-127.)

ERM para pérdida de 0/1 a menudo es difícil porque en muchos casos puede convertir instancias de problemas de satisfacción booleana dura en problemas de ERM con esta pérdida.

Afortunadamente, aunque a menudo medimos el rendimiento del aprendizaje automático en términos de pérdida 0/1 (p. Ej., Porcentaje de error, F1 y medidas relacionadas), no es crítico usar la pérdida 0/1. De hecho, cualquier “regla de puntuación adecuada” puede generar probabilidades condicionales correctas, y estas suelen ser más útiles que simplemente minimizar la pérdida de 0/1. Un inconveniente adicional de la pérdida 0/1 es que no es diferenciable, por lo que los algoritmos de búsqueda locales basados en el descenso de gradiente no se pueden aplicar directamente. Esta es otra razón por la que preferimos las funciones de pérdida, como el error al cuadrado y la pérdida de registro.

AlgoritmosAprendizaje automáticoinformáticateoría de la complejidad computacional

Cómo implementar la generación de números aleatorios a nivel de hardware

¿Cuáles son buenas maneras de encontrar el algoritmo y el cálculo necesarios? Normalmente no necesito pensarlo, pero recientemente, estoy luchando con ellos.

Quiero desarrollar un software profesional, ¿qué debo hacer?

Cómo determinar la complejidad de esta recurrencia T (n) = 16 * T (n / 4) + n! usando el teorema maestro

Una función de densidad de probabilidad, f, no es cero cuando a <x 0. ¿Cuáles son las restricciones en a, by k?

¿Cuál sería el algoritmo para encontrar subárboles duplicados en un árbol binario?

More Interesting
¿Por qué es 5n + 8n ^ 2 + 100n ^ 3 = O (n ^ 4)?
¿Cuál es la manera de mejorar en la resolución de preguntas recurrentes y complicadas de estructura de datos / algoritmo?
¿Cuál es la diferencia entre hashing y encriptación?
¿Los algoritmos están optimizados para discos duros normales * no * optimizados para unidades de estado sólido?
¿Qué representa un estado en términos de programación dinámica?
¿Qué necesitas saber para aprender algoritmos? Probé los algoritmos gratuitos de Coursera y el curso de estructuras de datos de Princeton y me perdí por completo.
Cómo mostrar un problema es NP completo
¿Cómo se hace un motor de chatbot como Wit.ai o API.AI? ¿Cómo puedo hacer una versión simple? Proporcionarme algunos algoritmos y técnicas.
¿Qué algoritmos de aprendizaje automático son más adecuados para las entradas 1-hot?
Cómo crear un algoritmo
Cómo encontrar si un número dado es primo o no
¿Por qué es Introducción a los algoritmos una lectura obligada para convertirse en un mejor programador?
No soy bueno en algoritmos, pero estoy tratando de descubrir algo. ¿Cuáles son algunas técnicas o libros o alguna sugerencia?
¿Cómo justificamos la selección de un algoritmo de aprendizaje particular para la clasificación?
Dada una lista enlazada circular, ¿cómo encuentro la secuencia más larga de nodos de valor no repetido?