¿Cómo calcula la regresión logística de liblinear los gradientes (por ejemplo, diferenciación numérica o automática)?

Hasta donde yo sé, LIBLINEAR implementa el “Método Newton de la Región de Confianza” para la regresión logística. Se basa en el papel

Lin, Chih-Jen, Ruby C. Weng y S. Sathiya Keerthi. “Confíe en los métodos newton de la región para la regresión logística a gran escala”. Actas de la 24ª conferencia internacional sobre aprendizaje automático . ACM, 2007.

(Se puede encontrar una versión en PDF en https://www.csie.ntu.edu.tw/~cjl…)

En pocas palabras, y en términos muy simplificados, digamos que tiene la siguiente actualización de peso

w_ {t + 1) = w {t} + tasa de aprendizaje * g

resuelve g dentro de una pequeña región previamente especificada de los pesos w, donde los métodos “confían” en el gradiente g será una buena opción para la actualización. Para obtener más información sobre la región de confianza, consulte Región de confianza – Wikipedia

Aprendizaje automáticoEstadísticaRegresiónRegresión logística

Related Content

Soy doctora en ingeniería informática con experiencia en aprendizaje automático y optimización bayesiana. Me encantaría evolucionar mi investigación hacia la mecánica estadística y la biofísica. ¿Cómo podría lograr eso? ¿Qué colaboraciones vale la pena buscar?

Cómo lidiar con un trabajo de investigación cuando contiene muchos materiales de fondo que no has estudiado

¿Cómo se hace la inferencia en una red neuronal con capas de normalización por lotes?

Cómo saber formalmente si una función objetivo es convexa o no convexa

¿Cuál es el mejor lenguaje de programación para un bootcamp de aprendizaje automático?

¿Qué debo usar para el aprendizaje automático si necesito una solución rápida: Python, R o SAS?

¿Qué papel puede jugar la IA en la educación?

More Interesting

¿Cómo funciona la red de propuestas regionales (RPN) en Faster R-CNN?

¿Por qué las arquitecturas de aprendizaje profundo como CNN, Faster R-CNN o SSD están abiertas a todos? ¿Por qué estas personas no pueden patentar estas arquitecturas?

¿Vale la pena desarrollar un algoritmo de minería de datos más rápido que otros de código abierto y comerciales existentes? Si vale lo suficiente, ¿qué valor tiene ser el algoritmo más rápido?

Cómo implementar una capa de deconvolución con los mismos valores de peso de la capa de convolución anterior para una red neuronal convolucional

¿Cuáles son algunos de los mejores cursos de ML para una maestría en India?

¿Por qué el artículo de DeepMind sobre el aprendizaje de refuerzo (jugar juegos de atari) ganó popularidad estelar?

¿Cuáles son las desventajas de usar un árbol de decisión para la clasificación?

¿Es factible hacer una regresión logística en conjuntos de datos con miles de características sin usar una computadora de clúster? ¿Qué tal decenas de miles?

¿Cuáles son los beneficios de usar unidades lineales rectificadas frente a la función de activación sigmoidea típica?

¿De qué manera la empresa promedio utilizará tecnologías de visión por computadora dentro de 20 años?

¿Cuándo debo usar la asignación de Dirichlet latente en la minería de texto? ¿Es bueno usarlo para un sistema que requiere alta precisión, como un sistema de detección de fraude?

¿Es el análisis de datos funcionales simplemente renombrado análisis wavelet en estadísticas?

Como desarrollador web junior sin una sólida base matemática, ¿qué enfoques debo tomar para dominar el aprendizaje automático y aplicarlo al mundo empresarial? Acabo de empezar a estudiar la "Introducción al álgebra lineal" de Gilbert Strang.

¿Cuál es la diferencia entre TensorFlow y Grep? ¿Cuál es el más adecuado para el aprendizaje automático? ¿Por qué o por qué no?

¿Cuál es la diferencia entre hash y minhashing sensibles a la localidad?

Web Analytics