¿Cómo calcula la regresión logística de liblinear los gradientes (por ejemplo, diferenciación numérica o automática)?

Hasta donde yo sé, LIBLINEAR implementa el “Método Newton de la Región de Confianza” para la regresión logística. Se basa en el papel

Lin, Chih-Jen, Ruby C. Weng y S. Sathiya Keerthi. “Confíe en los métodos newton de la región para la regresión logística a gran escala”. Actas de la 24ª conferencia internacional sobre aprendizaje automático . ACM, 2007.

(Se puede encontrar una versión en PDF en https://www.csie.ntu.edu.tw/~cjl…)

En pocas palabras, y en términos muy simplificados, digamos que tiene la siguiente actualización de peso

w_ {t + 1) = w {t} + tasa de aprendizaje * g

resuelve g dentro de una pequeña región previamente especificada de los pesos w, donde los métodos “confían” en el gradiente g será una buena opción para la actualización. Para obtener más información sobre la región de confianza, consulte Región de confianza – Wikipedia

More Interesting

¿Cómo funciona la red de propuestas regionales (RPN) en Faster R-CNN?

¿Por qué las arquitecturas de aprendizaje profundo como CNN, Faster R-CNN o SSD están abiertas a todos? ¿Por qué estas personas no pueden patentar estas arquitecturas?

¿Vale la pena desarrollar un algoritmo de minería de datos más rápido que otros de código abierto y comerciales existentes? Si vale lo suficiente, ¿qué valor tiene ser el algoritmo más rápido?

Cómo implementar una capa de deconvolución con los mismos valores de peso de la capa de convolución anterior para una red neuronal convolucional

¿Cuáles son algunos de los mejores cursos de ML para una maestría en India?

¿Por qué el artículo de DeepMind sobre el aprendizaje de refuerzo (jugar juegos de atari) ganó popularidad estelar?

¿Cuáles son las desventajas de usar un árbol de decisión para la clasificación?

¿Es factible hacer una regresión logística en conjuntos de datos con miles de características sin usar una computadora de clúster? ¿Qué tal decenas de miles?

¿Cuáles son los beneficios de usar unidades lineales rectificadas frente a la función de activación sigmoidea típica?

¿De qué manera la empresa promedio utilizará tecnologías de visión por computadora dentro de 20 años?

¿Cuándo debo usar la asignación de Dirichlet latente en la minería de texto? ¿Es bueno usarlo para un sistema que requiere alta precisión, como un sistema de detección de fraude?

¿Es el análisis de datos funcionales simplemente renombrado análisis wavelet en estadísticas?

Como desarrollador web junior sin una sólida base matemática, ¿qué enfoques debo tomar para dominar el aprendizaje automático y aplicarlo al mundo empresarial? Acabo de empezar a estudiar la "Introducción al álgebra lineal" de Gilbert Strang.

¿Cuál es la diferencia entre TensorFlow y Grep? ¿Cuál es el más adecuado para el aprendizaje automático? ¿Por qué o por qué no?

¿Cuál es la diferencia entre hash y minhashing sensibles a la localidad?