¿Por qué es óptimo establecer el tamaño del paso para la regresión logística con el descenso del gradiente al recíproco de la consistencia de lipschitz?

Resumen de llegar al fondo de la regresión con descenso de gradiente

Cuando el gradiente de una función es Lipschitz continuo, en términos generales, la función tiene un límite máximo en su curvatura. Por lo tanto, es posible encontrar aproximaciones cuadráticas que siempre se sientan encima de la función, siempre y cuando empleemos un tamaño de paso igual o menor que el recíproco de ese límite.

En la regresión de mínimos cuadrados ordinarios (OLS) [matemática] f (b) [/ matemática] es dos veces diferenciable y su arpillera es [matemática] X ^ t X [/ matemática], que no depende de [matemática] b [/ matemática ] Por lo tanto, la constante de Lipschitz más pequeña de [math] ∇f [/ math] es el valor propio más grande de [math] X ^ tX [/ math]. Naturalmente, queremos dar los pasos más grandes posibles, por lo que si podemos calcular la constante de Lipschitz [matemáticas] L [/ matemáticas] establecemos el tamaño del paso [matemáticas] α = 1 / L [/ matemáticas].

Creo que las mismas condiciones matemáticas ([matemáticas] f (b) [/ matemáticas] dos veces diferenciables e independientes de Hesse de [matemáticas] b [/ matemáticas]) son válidas para la regresión logística. Por lo tanto, puede usar la misma técnica para establecer [math] \ alpha [/ math] en este caso.

Aprendizaje automáticoDescenso de gradienteOptimización matemática

Related Content

¿Cómo se interpretan la precisión y el recuerdo en una tarea de segmentación?

¿Puede el desarrollador de hadoop aprender el aprendizaje automático?

¿Cuál es la diferencia entre Deep Autoencoders y Deep Belief Networks?

Cómo leer y comprender trabajos de investigación sobre aprendizaje automático

Visión por computadora: ¿Existe un servicio que, dada una imagen, le dice lo que representa?

Cómo obtener la fecha y hora de la instancia EC2 detenida

¿Debemos usar el ajuste fino en redes neuronales profundas? La precisión de la clasificación es del 100%, pero después de un ajuste fino, se convierte en el 95.7%, ¿cómo llega esto?

More Interesting

¿Cuál es una explicación intuitiva de un ingenuo clasificador de Bayes?

¿Cuáles son los problemas médicos que el aprendizaje automático puede resolver?

¿Usaría WEKA o MATLAB para la clasificación binaria?

¿Deberíamos comenzar con Tensorflow, Keras o Sonnet para desarrollar un sistema de predicción de datos de series temporales? ¿Debemos usar solo lenguajes basados en Python?

¿Cuál es la mejor implementación distribuida de Word2Vec: Gensim o Spark?

¿Se utiliza el álgebra abstracta y el análisis real en el aprendizaje automático? Si es así, ¿cómo se usan?

¿Aprendizaje automático para predecir valores para t + 1?

Cómo aprender y construir un chatbot inteligente basado en inteligencia artificial como Google Allo desde cero, con un mayor enfoque en el modelo de dominio cerrado basado en la recuperación y el aprendizaje de ML y NLP

¿Qué dice el profesor Yaser Abu-Mostafa en su conferencia sobre la viabilidad del aprendizaje?

¿Por qué el escalado es importante para la clasificación SVM lineal?

¿Cómo explicaría la desigualdad de Hoeffding y, como consecuencia natural, la dimensión Vapnik Chervonenkis a un niño de diez años?

Cómo encontrar grupos en estos datos

¿Cuál es el básico antes de aprender el aprendizaje automático?

¿Cómo es un proyecto de visión por computadora "típico", de principio a fin?

¿Cómo está estudiando Conner Davis el aprendizaje automático?

Web Analytics