¿Cuál es el mejor algoritmo para la optimización convexa sin restricciones de propósito general?

Descenso de gradiente estocástico, con un tamaño de paso decreciente proporcional a t ^ (- 1/2).

Es de primer orden, por lo que cada iteración requiere memoria proporcional a la dimensión d del problema únicamente: escalable. Estocástico significa que para muchos tipos de problemas, cada iteración requiere solo d trabajo, por lo que normalmente hará algo útil muy rápidamente. Calcular un gradiente estocástico es una barrera muy baja para la entrada. Prácticamente, a SGD le está yendo muy bien incluso para problemas bastante especializados como redes neuronales y svm primal lineal (algunas veces variando el horario del tamaño del paso). Teóricamente, obtienes una prueba fácil de convergencia incluso con problemas no suaves y no muy convexos.

Saber más sobre el problema le proporciona algoritmos más especializados con tasas más rápidas, por supuesto, y alcanzar un SGD de alta precisión en sí mismo es bastante inútil, pero no conozco ningún algoritmo con una aplicabilidad tan amplia.

Related Content

¿Cuáles son los algoritmos de clasificación considerados algoritmos codiciosos?

¿Se puede aplicar BFS a gráficos ponderados?

¿En qué sitio web debo buscar gráficos en la estructura de datos?

¿Existe un algoritmo borroso que replica la miopía?

¿Cuál es la diferencia entre el problema del vendedor ambulante y el problema del árbol de expansión mínima?

Si la compresión sin pérdida es completamente reversible, ¿por qué no omitimos un paso y solo usamos los archivos en su estado comprimido?

Cómo calcular la regla delta en el aprendizaje automático

Obviamente, el algoritmo iterativo, como el descenso de gradiente, el gradiente conjugado, Newton, etc.

Además, los algoritmos inteligentes como el algoritmo genético (GA), el algoritmo de enjambre de partículas (PSO), el algoritmo de recocido simulado (SA) se pueden utilizar para resolver el problema de optimización, pero no se recomiendan.

Zhengyi Zhang

More Interesting

¿Cómo puedo extender el algoritmo KMP a 2 dimensiones?

¿Qué pasaría si más personas se dieran cuenta de que la Ley podría entenderse como una serie de algoritmos sociales en un programa que se resiste a la compilación?

¿Por qué la clasificación de montón se considera un algoritmo in situ?

Estoy comenzando un proyecto de clasificación de picos, ¿dónde encuentro datos sin procesar y / o simulados?

Cómo crear mi propia función de hash para usar en una tabla de búsqueda

¿En qué programas podemos practicar para comprender la programación y los algoritmos?

¿Cuál es el código C ++ más simple para el algoritmo A *?

¿Qué tipo de algoritmos usa Android para mezclar tu música?

¿Cuál es la solución a este décimo problema polinómico de clase?

¿Cuál es el mejor algoritmo para calcular la cantidad de números primos?

¿Cuál es un buen algoritmo para interpolar datos de series temporales faltantes?

¿Es un nodo raíz un nodo interno en una estructura de datos de árbol?

¿Por qué es mejor usar los elementos del marco de la colección que usar una matriz de objetos?

¿Cuál es la forma correcta de fusionar dos algoritmos de cifrado simples, sin causar un problema de cifrado?

¿Qué debo hacer después de aprender Python? ¿Programación competitiva o aprender Djanjo o aprender algoritmos y estructura de datos en Python?

Web Analytics