-> En primer lugar, ¿cuál es la regresión lineal?
-> La regresión lineal es una función hipótesis que predice el valor de la variable de destino Y sobre la base de alguna variable característica X. Entonces, si asumimos nuestra función hipótesis de que sea una función lineal del vector de parámetros theta y entidades de entrada X, la hipótesis puede ser expresada como
h (x) = θ (T) * X donde θ (T) = transposición theta
-> Ahora, con el fin de minimizar la función de coste J (θ), y a los coeficientes de calcular, utilizamos diferentes tipos de degradado algoritmos decente, principalmente utilizamos gradiente lote decente y el gradiente estocástico decente. El degradado por lotes decente es más preciso, pero lleva más tiempo converger a los óptimos globales y también lleva mucho tiempo dar un solo paso. Cuando por el contrario, gradiente estocástico decente es rápido en comparación con gradiente de lotes decente y toma menos tiempo para converger, aunque con menor precisión.
- ¿Por qué no podemos entender la función cerebral como entendemos la IA de la computadora?
- Cómo comenzar con el desarrollo de Inteligencia Artificial usando C #
- Quiero hacer una IA simple (inteligencia artificial), entonces, ¿qué lenguaje de programación debo aprender para hacer una IA simple?
- ¿Qué opinas del desarrollo de la ética de los robots?
- ¿Qué es el aprendizaje automático y su importancia en 2016?
-> También podemos utilizar el método analítico para calcular el vector de parámetros θ.
-> En caso de hipótesis lineal, su parámetro vectorial θ puede calcularse utilizando esta fórmula, sin ningún algoritmo iterativo,
θ = inv ((x (t) * X)) * X (T) * Y
dónde,
inv (x) = inverso de la matriz x
X (T) = transposición de la matriz X
-> Ahora, volviendo a su pregunta, sobre modelos de regresión lineal generalizada específicamente, tomemos el mismo ejemplo.
-.> Aquí, y (i) = h (x (i)) + e (i)
-> Aquí, supongamos que el término de error e (i) se distribuye de forma independiente e idéntica (IID) de acuerdo con la distribución gaussiana. Por lo tanto, con el fin de maximizar la probabilidad de Y X dado parametrizada por vector de parámetros theta, tendremos que maximizar la función de probabilidad de theta, que significa que tendremos para maximizar la función de probabilidad logarítmica de theta, lo que se traducirá en la minimización de la función J (θ).
-> Ahora, para minimizar la función de costo J (θ), utilizamos el algoritmo decente de gradiente.
-> Ahora, los modelos lineales generalizados son un conjunto más amplio de algoritmos, principalmente conocidos como distribución familiar exponencial. Ahora, si asume que cualquier distribución es distribuciones de modelos lineales generalizadas, hay tres supuestos que sigue en general,
1) y | x; θ ~ familia exponencial (η). Es decir, dados x y θ, la distribución de y sigue una distribución familiar exponencial, con el parámetro η.
2) X dado, nuestro objetivo es predecir el valor esperado de T (y) dado x.
En la mayoría de nuestros ejemplos, tendremos T (y) = y, por lo que esto significa que
le gustaría la predicción h (x) la producción en nuestra hipótesis h aprendido a
satisfacer h (x) = E [y | x].
3) El parámetro natural η y las entradas x están relacionadas linealmente: η = θT * x. (O, si η tiene un valor vectorial, entonces ηi = θT (i) x.)
-> Aquí, θT es transpuesta del vector θ.
-> Bajo estos tres supuestos, obtienes la función de probabilidad y de eso obtienes la función de probabilidad de registro. Y que va a utilizar el método de Newton para maximizar la función de probabilidad logarítmica y por lo tanto de eso, usted será capaz de obtener los parámetros de hipótesis o coeficientes de que los modelos lineales generalizados.