¿Qué es la regresión de cresta?

La regresión lineal proporciona una estimación que minimiza la suma del error cuadrado. Para saber más sobre regresión lineal, consulte https://www.quora.com/Whats-the-…

Para P = 2 caso,

[math] \ text {Min} \ text {SSE} \ tag {1} [/ math]

¿Cómo puedo comenzar a usar métodos de "generalización apilada" en Python para las competencias de Kaggle?
¿Se está realizando una fuerte investigación en la intersección del aprendizaje automático y la neurociencia computacional?
¿Existen aplicaciones prácticas útiles y serias de redes neuronales que se ejecutan localmente en aplicaciones de teléfonos inteligentes móviles?
¿Qué son los algoritmos del sistema de recomendación? ¿Y cómo implementar en Java?
¿Se pueden utilizar algoritmos genéticos y optimización de enjambre de partículas para construir sistemas de reconocimiento de voz?

[matemáticas] Min \ sum_ {i = 1} ^ N (y_i – \ beta_0 + \ beta_1 x_ {1i} + \ beta_2 x_ {2i}) ^ {2} \ tag {2} [/ matemáticas]

La regresión de cresta proporciona una estimación que minimiza la suma del error al cuadrado y satisface la restricción de que [matemática] \ sum_ {j = 1} ^ P \ beta_j ^ 2 <= c [/ matemática]

[matemáticas] Min \ sum_ {i = 1} ^ N (y_i – \ beta_0 + \ beta_1 x_ {1i} + \ beta_2 x_ {2i}) ^ {2} \ tag {3} [/ matemáticas]

Sujeto a

[matemáticas] \ sum_ {j = 1} ^ 2 \ beta_j ^ 2 <= s \ tag {4} [/ matemáticas]

Al usar el multiplicador de Lagrange, podemos escribir la ecuación anterior como,

[matemáticas] Min \ sum_ {i = 1} ^ N (y_i – \ beta_0 + \ beta_1 x_1i + \ beta_2 x_2i) ^ {2} + \ lambda (\ sum_ {j = 1} ^ 2 \ beta_j ^ 2 -s ) \ tag {5} [/ math]

Tanto [math] \ lambda [/ math] como s son constantes. No tiene ningún impacto en la solución. Entonces, podemos escribir la ecuación anterior como,

[matemáticas] Min \ sum_ {i = 1} ^ N (y_i – \ beta_0 + \ beta_1 x_1i + \ beta_2 x_2i) ^ {2} + \ lambda (\ sum_ {j = 1} ^ 2 \ beta_j ^ 2) \ etiqueta {6} [/ matemáticas]

La ecuación anterior en forma de matriz.

[matemáticas] Min \ underbrace {(Y – \ beta ^ {T} X) ^ {T} (Y – \ beta ^ {T} X)} _ \ text {Suma del término de error Cuadrado} + \ underbrace {\ lambda \ beta ^ {T} \ beta} _ \ text {Término de penalización} \ tag {7} [/ math]

La regresión de cresta tiene dos ventajas importantes sobre la regresión lineal. La más importante es que penaliza las estimaciones. No penaliza todas las estimaciones de la función arbitrariamente. Si el valor estimado ([matemático] \ beta) [/ matemático] es muy grande, entonces el término SSE en la ecuación anterior se minimizará, pero el término de penalización aumentará. Si los valores estimados ([matemática] \ beta) [/ matemática] son pequeños, entonces el término de penalización en la ecuación anterior se minimizará, pero el término SSE aumentará debido a una generalización deficiente. Por lo tanto, elige las estimaciones de la característica ([matemática] \ beta [/ matemática]) para penalizar de tal manera que las características menos influyentes (algunas características causan una influencia muy pequeña en la variable dependiente) sufren más penalización. En algunos dominios, el número de variables independientes es múltiple, y no estamos seguros de cuál de las variables independientes influye en la variable dependiente. En este tipo de escenario, la regresión de cresta juega un papel mejor que la regresión lineal.

Para saber más sobre el intervalo de confianza de la estimación de regresión, consulte https://www.quora.com/How-can-I-…

Otra ventaja de la regresión de cresta sobre OLS es cuando las características están altamente correlacionadas entre sí, entonces el rango de la matriz X será menor que P + 1 (donde P es el número de regresores). Entonces, el inverso de [matemática] X ^ {T} X [/ matemática] no existe, lo que resulta que la estimación de OLS puede no ser única.

La estimación de regresión de cresta viene dada por

[matemáticas] \ hat {\ beta} _ {cresta} = (X ^ {T} X + \ lambda I) ^ {- 1} X ^ {T} Y \ tag {8} [/ matemáticas]

Para la regresión de cresta, estamos agregando un pequeño término [math] \ lambda [/ math] a lo largo de las diagonales de [math] X ^ {T} X [/ math]. Hace que la matriz [matemática] X ^ {T} X + \ lambda I [/ matemática] sea invertible (todas las columnas son linealmente independientes).

La regresión de cresta no produce una estimación imparcial como regresión lineal. Produce una estimación imparcial.

[matemáticas] E [\ hat {\ beta} _ {cresta}] \ neq \ beta \ tag {9} [/ matemáticas]

Sabíamos que, si aumenta el sesgo de una estimación, la varianza de la estimación disminuirá. Si no tiene claro el concepto Bias- Variance Trade-off, consulte https://www.quora.com/What-is-an…

Trataré de explicar el sesgo de regresión de cresta y el equilibrio de la varianza geométricamente.

Esta es la gráfica de contorno de la función objetivo de regresión de cresta. La elipse concéntrica indica la suma del término cuadrado. Cuando nos movemos hacia una elipse más pequeña desde la elipse externa, la suma del término cuadrado disminuirá. El círculo en el medio indica plazo de penalización. El punto óptimo es un punto que es un punto común entre la elipse y el círculo, y que proporciona un valor mínimo para la función anterior.

La regresión de cresta reduce la varianza de la estimación porque limita el espacio en el que puede vivir el vector de parámetros [math] \ beta [/ math]. Solo dentro del círculo, el vector de parámetros [math] \ beta [/ math] es factible. Pero, es posible que la verdadera [matemática] \ beta [/ matemática] pueda vivir fuera del círculo. Significa que [math] \ hat {\ beta} _ {ridge} [/ math] está sesgado. Entonces, surge la pregunta de qué es un radio (s) óptimo (s) de círculo y un parámetro lagrangiano óptimo ([math] \ lambda [/ math]).

No necesitamos tratar esos dos parámetros por separado porque están estrechamente relacionados. Vea la función de optimización de regresión de crestas. Si s toma un valor [math] \ infty [/ math], entonces [math] \ lambda [/ math] será cero. La solución resultante de esa función no es más que OLS. Si [math] \ lambda [/ math] toma un valor [math] \ infty [/ math] o un valor muy grande, entonces todos los coeficientes serán cero. Significa que s será cero. Muestra que [math] \ lambda [/ math] ys están inversamente relacionados. Entonces, solo necesitamos controlar un solo parámetro para encontrar el mejor estimador para una regresión de cresta. También entendimos que un radio óptimo depende del parámetro ([math] \ lambda [/ math]). Podemos encontrar el valor óptimo [math] \ lambda [/ math] usando la validación cruzada K-fold.

Aprendizaje automáticoEstadísticaRegresiónRegresión lineal