¿Qué es la regresión lineal generalizada?

-> En primer lugar, ¿cuál es la regresión lineal?
-> La regresión lineal es una función hipótesis que predice el valor de la variable de destino Y sobre la base de alguna variable característica X. Entonces, si asumimos nuestra función hipótesis de que sea una función lineal del vector de parámetros theta y entidades de entrada X, la hipótesis puede ser expresada como

h (x) = θ (T) * X donde θ (T) = transposición theta

-> Ahora, con el fin de minimizar la función de coste J (θ), y a los coeficientes de calcular, utilizamos diferentes tipos de degradado algoritmos decente, principalmente utilizamos gradiente lote decente y el gradiente estocástico decente. El degradado por lotes decente es más preciso, pero lleva más tiempo converger a los óptimos globales y también lleva mucho tiempo dar un solo paso. Cuando por el contrario, gradiente estocástico decente es rápido en comparación con gradiente de lotes decente y toma menos tiempo para converger, aunque con menor precisión.

-> También podemos utilizar el método analítico para calcular el vector de parámetros θ.

-> En caso de hipótesis lineal, su parámetro vectorial θ puede calcularse utilizando esta fórmula, sin ningún algoritmo iterativo,

θ = inv ((x (t) * X)) * X (T) * Y

dónde,
inv (x) = inverso de la matriz x
X (T) = transposición de la matriz X

-> Ahora, volviendo a su pregunta, sobre modelos de regresión lineal generalizada específicamente, tomemos el mismo ejemplo.

-.> Aquí, y (i) = h (x (i)) + e (i)

-> Aquí, supongamos que el término de error e (i) se distribuye de forma independiente e idéntica (IID) de acuerdo con la distribución gaussiana. Por lo tanto, con el fin de maximizar la probabilidad de Y X dado parametrizada por vector de parámetros theta, tendremos que maximizar la función de probabilidad de theta, que significa que tendremos para maximizar la función de probabilidad logarítmica de theta, lo que se traducirá en la minimización de la función J (θ).

-> Ahora, para minimizar la función de costo J (θ), utilizamos el algoritmo decente de gradiente.

-> Ahora, los modelos lineales generalizados son un conjunto más amplio de algoritmos, principalmente conocidos como distribución familiar exponencial. Ahora, si asume que cualquier distribución es distribuciones de modelos lineales generalizadas, hay tres supuestos que sigue en general,

1) y | x; θ ~ familia exponencial (η). Es decir, dados x y θ, la distribución de y sigue una distribución familiar exponencial, con el parámetro η.

2) X dado, nuestro objetivo es predecir el valor esperado de T (y) dado x.
En la mayoría de nuestros ejemplos, tendremos T (y) = y, por lo que esto significa que
le gustaría la predicción h (x) la producción en nuestra hipótesis h aprendido a
satisfacer h (x) = E [y | x].

3) El parámetro natural η y las entradas x están relacionadas linealmente: η = θT * x. (O, si η tiene un valor vectorial, entonces ηi = θT (i) x.)

-> Aquí, θT es transpuesta del vector θ.

-> Bajo estos tres supuestos, obtienes la función de probabilidad y de eso obtienes la función de probabilidad de registro. Y que va a utilizar el método de Newton para maximizar la función de probabilidad logarítmica y por lo tanto de eso, usted será capaz de obtener los parámetros de hipótesis o coeficientes de que los modelos lineales generalizados.

Aprendizaje automáticoinformáticaInteligencia ArtificialMinería de datosRegresión (estadística)Regresión lineal

¿Cuáles fueron los principales avances en aprendizaje automático / inteligencia artificial en 2016?

¿Puede pensar una máquina?

¿Debería considerarse que la computación flexible forma parte de la inteligencia artificial o la informática blanda debe considerarse una disciplina separada? ¿Y por qué?

Si tuviera una aplicación móvil (con tecnología de IA) que permitiera a los fanáticos del deporte debatir sobre un tema, ¿sería algo interesante?

¿Qué es un simple ejemplo de un algoritmo genético?

¿Cómo define el aprendizaje automático para un niño de seis años?

* A2A *

En estándar (o simple) modelo lineal (o regresión), hacemos las siguientes suposiciones:

[Matemáticas] \ displaystyle y_i \ sim \ mathcal {N} (\ mu_i, \ sigma ^ 2) \ etiqueta {1} [/ math]

esa es la variable de respuesta sigue una distribución normal y

[Matemática] \ displaystyle \ mathbb {E} [y_i] = \ mu_i = x_i ^ {\ superior} \ beta \ etiqueta {2} [/ matemáticas]

donde [matemáticas] x_i [/ math] es un vector de variables predictoras o características y [matemáticas] \ beta [/ math] es un vector de coeficientes o pesos que nos gustaría estimar (usando mínimos cuadrados).

Algunas personas pensaron que esta suposición de que [math] y_i [/ math] es una distribución normal es demasiado restrictiva. Por ejemplo, lo que si [matemáticas] y_i [/ matemáticas] ‘s son fracciones que se encuentran entre 0 y 1. En ese caso, obligando [matemáticas] y_i [/ math] que siguen una distribución normal puede introducir errores innecesarios. Sería mejor si sigue algo como la distribución beta. Por lo tanto, la gente decidió generalizar el modelo estándar de la siguiente manera:

[Matemáticas] \ displaystyle y_i \ sim \ mathrm {Exp} \ tag (\ theta_i) {3} [/ math]

donde [matemáticas] \ mathrm {Exp} [/ math] es cierta distribución de la familia exponencial que está parametrizada por algunos parámetros [matemáticas] theta_i \ [/ matemáticas].

Ahora, definimos una nueva variable de respuesta [matemáticas] \ eta_i [/ matemáticas] y la hacemos nuestra variable de respuesta de destino para el modelo lineal, es decir,

[matemáticas] \ displaystyle \ eta_i = x_i ^ {\ top} \ beta \ tag {4} [/ matemáticas]

Pero ¿cuál es la relación entre [matemáticas] \ eta_i [/ matemáticas] que se parece a alguna variable arbitraria respuesta y [matemáticas] y_i [/ matemáticas], que es la variable respuesta deseada? Bueno, aquí es donde se introduce la función de enlace ([matemáticas] g [/ matemáticas]), que unirá [matemáticas] \ eta_i [/ matemáticas] y [matemáticas] y_i [/ matemáticas] de la siguiente manera,

[Matemáticas] \ displaystyle E [y_i] = g ^ {- 1} (\ eta_i) \ etiqueta {5} [/ math]

Así tenemos el modelo lineal generalizado. Observe que si [matemáticas] g [/ math] es la identidad y [matemáticas] y_i [/ math] se distribuye normalmente entonces esto reducirá al modelo lineal estándar.

El método más común para estimar los coeficientes en un modelo lineal generalizado es la estimación de máxima verosimilitud. Puedes mirar aquí [1] para más detalles.

[1] Modelo lineal generalizado

Jay Verkuilen

La regresión lineal es un miembro del modelo lineal generalizado, por lo que, por supuesto, puede usarlo para calcular los coeficientes GLM en ese caso. La mayoría de los GLM requieren cálculo iterativo a través de un algoritmo como Iterativamente vuelven a pesar de mínimos cuadrados o de Newton-Raphson. Es posible utilizar la regresión lineal con los pesos para calcular un GLM mediante la actualización de los pesos de regresión y el uso de los pseudo-valores, pero es tedioso y generalmente no es recomendable en este día y edad.

Jay Verkuilen

Su pregunta es respondida en esta publicación
Regresión lineal

Jay Verkuilen

More Interesting

¿Por qué el futuro de la IA parece cada vez más distópico ahora, a diferencia de los años 90?

¿Por qué necesitamos IA en absoluto? ¿Por qué es necesario su inicio?

¿Cuándo quedará claro en qué año la inteligencia artificial adquiere una capacidad general de autoaprendizaje y auto ingeniería?

¿Cómo debo enseñarme sobre temas como AI y Deep Learning si no tengo conocimientos previos de programación? Quiero comenzar desde lo básico.

¿Cómo pueden los robots tomar mejor los comandos verbales humanos?

¿Podría una IA diseñar una nueva vida desde cero utilizando una biblioteca genética que contenga una colección de una amplia variedad de formas de vida?

¿Por qué es tan difícil hacer un traductor universal?

¿Cuál es la diferencia y similitud de la inteligencia artificial con IR?