¿Cómo describirías la diferencia entre regresión lineal, regresión de lazo y regresión de cresta?

Regresión lineal

La regresión lineal proporciona una estimación que minimiza la suma del error cuadrado. Para saber más sobre regresión lineal, consulte https://www.quora.com/Whats-the-…

Para P = 2 caso,

[math] \ text {Min} \ text {SSE} \ tag {1} [/ math]

[matemáticas] Min \ sum_ {i = 1} ^ N (y_i – \ beta_0 + \ beta_1 x_ {1i} + \ beta_2 x_ {2i}) ^ {2} \ tag {2} [/ matemáticas]

Regresión de cresta

La regresión de cresta proporciona una estimación que minimiza la suma del error al cuadrado y satisface la restricción de que [math] \ sum_ {j = 1} ^ P \ beta_j ^ 2 <= s [/ math]

[matemáticas] Min \ sum_ {i = 1} ^ N (y_i – \ beta_0 + \ beta_1 x_ {1i} + \ beta_2 x_ {2i}) ^ {2} \ tag {3} [/ matemáticas]

Sujeto a

[matemáticas] \ sum_ {j = 1} ^ 2 \ beta_j ^ 2 <= s \ tag {4} [/ matemáticas]

Al usar el multiplicador de Lagrange, podemos escribir la ecuación anterior como,

[matemáticas] Min \ sum_ {i = 1} ^ N (y_i – \ beta_0 + \ beta_1 x_1i + \ beta_2 x_2i) ^ {2} + \ lambda (\ sum_ {j = 1} ^ 2 \ beta_j ^ 2 -s ) \ tag {5} [/ math]

s es constante No tiene ningún impacto en la solución. Entonces, podemos escribir la ecuación anterior como,

[matemáticas] Min \ sum_ {i = 1} ^ N (y_i – \ beta_0 + \ beta_1 x_1i + \ beta_2 x_2i) ^ {2} + \ lambda (\ sum_ {j = 1} ^ 2 \ beta_j ^ 2) \ etiqueta {6} [/ matemáticas]

La ecuación anterior en forma de matriz.

[matemáticas] Min \ underbrace {(Y – \ beta ^ {T} X) ^ {T} (Y – \ beta ^ {T} X)} _ \ text {Suma del término de error Cuadrado} + \ underbrace {\ lambda \ beta ^ {T} \ beta} _ \ text {Término de penalización} \ tag {7} [/ math]

Regresión de lazo

La principal diferencia entre la regresión de cresta y lazo es una forma de la región de restricción. La regresión de cresta utiliza la norma [matemática] L_2 [/ matemática] para una restricción. Para el caso P = 2 (donde P es el número de regresores), la forma de la región de restricción es un círculo. Lasso usa la norma [math] L_1 [/ math] para una restricción. Para el caso P = 2, la forma de la región de restricción es diamante. La estimación del lazo es una estimación que minimiza la suma del cuadrado y satisface la restricción a continuación.

Para P = 2 caso,

[matemáticas] Min \ sum_ {i = 1} ^ N (y_i – \ beta_0 + \ beta_1 x_ {1i} + \ beta_2 x_ {2i}) ^ {2} \ tag {1} [/ matemáticas]

sujeto a

[matemáticas] \ sum_ {j = 1} ^ 2 | \ beta_j | <= s \ tag {} [/ math]

Al usar el multiplicador de Lagrange, la ecuación anterior se convierte en,

[matemáticas] Min \ sum_ {i = 1} ^ N (y_i – \ beta_0 + \ beta_1 x_ {1i} + \ beta_2 x_ {2i}) ^ {2} + \ lambda (\ sum_ {j = 1} ^ 2 | \ beta_j | – s) \ tag {2} [/ math]

Tanto [math] \ lambda [/ math] como s son constantes, por lo que la ecuación anterior se convierte en

[matemáticas] Min \ underbrace {\ sum_ {i = 1} ^ N (y_i – \ beta_0 + \ beta_1 x_1i + \ beta_2 x_2i) ^ {2}} _ \ text {suma del término de error cuadrado} + \ underbrace {\ lambda (\ sum_ {j = 1} ^ 2 | \ beta_j |)} _ \ text {Término de penalización} \ tag {3} [/ math]

La regresión de MCO puede sobreajustar fácilmente. El LASSO y la cresta se ven, desde una perspectiva frecuentista, como penalizaciones L1 y L2 en los parámetros (contracción). L1 tiende a fomentar coeficientes dispersos (más reducidos a cero), mientras que L2 tiene muchos pequeños (ya que el cuadrado de un número menor que uno es menor que el número original).

Visto desde una perspectiva bayesiana, la regresión de cresta tiene un previo normal en los parámetros de regresión, mientras que el LASSO (L1) tiene el previo de Laplace.

Sin embargo, la interpretación de las regresiones frecuentistas regularizadas y las regresiones bayesianas es totalmente diferente. Por un lado, en lo que respecta a un Bayesiano, OLS no tiene sentido sin un previo en los parámetros.

Sin embargo, para comparar el marco bayesiano con el marco frecuentista, debemos analizar el problema que están resolviendo. Que está más allá del alcance de la pregunta como se le preguntó.

Regresión lineal

Es una de las técnicas de modelado más conocidas. La regresión lineal suele estar entre los primeros temas que la gente elige
mientras aprende modelado predictivo. En esta técnica, la variable dependiente es continua, variable independiente (s)
puede ser continuo o discreto, y la naturaleza de la línea de regresión es lineal.

La regresión lineal establece una relación entre la variable dependiente (Y) y una o más variables independientes (X)
usando una línea recta de mejor ajuste (también conocida como línea de regresión).

Regresión de cresta

La regresión de cresta es una técnica utilizada cuando los datos sufren de multicolinealidad (las variables independientes están altamente correlacionadas).
En multicolinealidad, aunque las estimaciones de mínimos cuadrados (MCO) son insesgadas, sus variaciones son grandes, lo que desvía el valor observado
lejos del verdadero valor. Al agregar un grado de sesgo a las estimaciones de regresión, la regresión de cresta reduce los errores estándar.

Arriba, vimos la ecuación para la regresión lineal. ¿Recuerda? Se puede representar como:

y = a + b * x

Esta ecuación también tiene un término de error. La ecuación completa se convierte en:
y = a + b * x + e (término de error), [término de error es el valor necesario para corregir un error de predicción entre el valor observado y el predicho]
=> y = a + y = a + b1x1 + b2x2 +… + e, para múltiples variables independientes.

En una ecuación lineal, los errores de predicción pueden descomponerse en dos subcomponentes. Primero se debe a la parcialidad y segundo se debe a la varianza. El error de predicción puede ocurrir debido a cualquiera de estos dos o ambos componentes. Aquí, discutiremos sobre el error causado debido a la variación.

La regresión de cresta resuelve el problema de multicolinealidad a través del parámetro de contracción λ (lambda). Mira la ecuación a continuación.

Cresta

En esta ecuación, tenemos dos componentes. El primero es el término de mínimo cuadrado y el otro es lambda de la suma de β2 (beta-cuadrado) donde β es el coeficiente. Esto se agrega al término de mínimos cuadrados para reducir el parámetro para tener una varianza muy baja.

Puntos importantes:
• Los supuestos de esta regresión son los mismos que la regresión de mínimos cuadrados, excepto que no se debe suponer normalidad.
• Reduce el valor de los coeficientes pero no llega a cero, lo que sugiere que no hay función de selección de características
• Este es un método de regularización y utiliza la regularización l2.

Regresión de lazo

Similar a la regresión de cresta, el lazo (operador de selección y contracción menos absoluta) también penaliza el tamaño absoluto de los coeficientes de regresión.
Además, es capaz de reducir la variabilidad y mejorar la precisión de los modelos de regresión lineal.
Mire la ecuación a continuación: La regresión de LassoLasso difiere de la regresión de cresta de una manera que usa valores absolutos en la función de penalización,
en lugar de cuadrados. Esto lleva a penalizar (o limitar de manera equivalente la suma de los valores absolutos de las estimaciones)
valores que provocan que algunas de las estimaciones de los parámetros resulten exactamente cero. A mayor penalidad aplicada,
Además, las estimaciones se reducen al cero absoluto. Esto resulta en la selección de variables de n variables dadas.

Puntos importantes:
• Los supuestos de esta regresión son los mismos que la regresión de mínimos cuadrados, excepto que no se debe suponer normalidad.
• Reduce los coeficientes a cero (exactamente cero), lo que sin duda ayuda en la selección de funciones
• Este es un método de regularización y utiliza la regularización l1
• Si el grupo de predictores está altamente correlacionado, el lazo selecciona solo uno de ellos y reduce los otros a cero

su forma de estimación Puede tomar el lazo y la cresta como una regresión penalizada donde la contracción del lazo se reduce a un coeficiente de cero a la derecha en general, pero en menor medida.

En realidad, la cresta del lazo es una estimación bayesiana de regresión lineal para alguna distribución previa afirmada

More Interesting

¿El estudio de algoritmos es relevante para el desarrollo actual?

¿Cuál es la diferencia entre CS y SE?

Para aplicaciones web grandes, ¿dónde se almacenan los datos de aprendizaje automático?

¿Por qué son importantes las extensiones de nombre de archivo? ¿Para qué sirven?

¿Cuáles son algunos buenos libros sobre los fundamentos del compilador para principiantes?

Mucha gente sugiere escribir un blog para mejorar su visibilidad y estado como experto en un tema específico. Sin embargo, no soporto la idea de escribir, especialmente sobre temas técnicos. ¿Hay otras formas de hacerse notar?

¿Existen pequeños proyectos significativos en el aprendizaje automático?

¿Qué es un enrutador de software y cómo se implementa el plano de datos en los enrutadores de software?

¿Cuáles son los pros y los contras de ir a la UC Santa Cruz para la informática? ¿Cómo pesa UCSC en comparación con otras universidades en términos de CS y empleo después de la universidad?

¿Sería útil para un estudiante de CS estudiar Señales y Sistemas, así como el Procesamiento de Señal Digital?

¿Por qué las redes neuronales son tan poderosas y versátiles para resolver problemas dado que las matemáticas detrás de las redes neuronales son decepcionantemente simples?

¿Debo aprender japonés o chino como estudiante de informática?

¿Cuál es mejor IIIT DELhi ECE o JIIT CS?

¿Existe algún teorema en estadística o aprendizaje automático que muestre que "cuanto mayor es el conjunto de datos, mayor es la precisión"?

Cómo multiplicar números de complemento a dos de punto fijo