¿Qué es la regresión de cresta?

La regresión lineal proporciona una estimación que minimiza la suma del error cuadrado. Para saber más sobre regresión lineal, consulte https://www.quora.com/Whats-the-…

Para P = 2 caso,

[math] \ text {Min} \ text {SSE} \ tag {1} [/ math]

[matemáticas] Min \ sum_ {i = 1} ^ N (y_i – \ beta_0 + \ beta_1 x_ {1i} + \ beta_2 x_ {2i}) ^ {2} \ tag {2} [/ matemáticas]

La regresión de cresta proporciona una estimación que minimiza la suma del error al cuadrado y satisface la restricción de que [matemática] \ sum_ {j = 1} ^ P \ beta_j ^ 2 <= c [/ matemática]

[matemáticas] Min \ sum_ {i = 1} ^ N (y_i – \ beta_0 + \ beta_1 x_ {1i} + \ beta_2 x_ {2i}) ^ {2} \ tag {3} [/ matemáticas]

Sujeto a

[matemáticas] \ sum_ {j = 1} ^ 2 \ beta_j ^ 2 <= s \ tag {4} [/ matemáticas]

Al usar el multiplicador de Lagrange, podemos escribir la ecuación anterior como,

[matemáticas] Min \ sum_ {i = 1} ^ N (y_i – \ beta_0 + \ beta_1 x_1i + \ beta_2 x_2i) ^ {2} + \ lambda (\ sum_ {j = 1} ^ 2 \ beta_j ^ 2 -s ) \ tag {5} [/ math]

Tanto [math] \ lambda [/ math] como s son constantes. No tiene ningún impacto en la solución. Entonces, podemos escribir la ecuación anterior como,

[matemáticas] Min \ sum_ {i = 1} ^ N (y_i – \ beta_0 + \ beta_1 x_1i + \ beta_2 x_2i) ^ {2} + \ lambda (\ sum_ {j = 1} ^ 2 \ beta_j ^ 2) \ etiqueta {6} [/ matemáticas]

La ecuación anterior en forma de matriz.

[matemáticas] Min \ underbrace {(Y – \ beta ^ {T} X) ^ {T} (Y – \ beta ^ {T} X)} _ \ text {Suma del término de error Cuadrado} + \ underbrace {\ lambda \ beta ^ {T} \ beta} _ \ text {Término de penalización} \ tag {7} [/ math]

La regresión de cresta tiene dos ventajas importantes sobre la regresión lineal. La más importante es que penaliza las estimaciones. No penaliza todas las estimaciones de la función arbitrariamente. Si el valor estimado ([matemático] \ beta) [/ matemático] es muy grande, entonces el término SSE en la ecuación anterior se minimizará, pero el término de penalización aumentará. Si los valores estimados ([matemática] \ beta) [/ matemática] son ​​pequeños, entonces el término de penalización en la ecuación anterior se minimizará, pero el término SSE aumentará debido a una generalización deficiente. Por lo tanto, elige las estimaciones de la característica ([matemática] \ beta [/ matemática]) para penalizar de tal manera que las características menos influyentes (algunas características causan una influencia muy pequeña en la variable dependiente) sufren más penalización. En algunos dominios, el número de variables independientes es múltiple, y no estamos seguros de cuál de las variables independientes influye en la variable dependiente. En este tipo de escenario, la regresión de cresta juega un papel mejor que la regresión lineal.

Para saber más sobre el intervalo de confianza de la estimación de regresión, consulte https://www.quora.com/How-can-I-…

Otra ventaja de la regresión de cresta sobre OLS es cuando las características están altamente correlacionadas entre sí, entonces el rango de la matriz X será menor que P + 1 (donde P es el número de regresores). Entonces, el inverso de [matemática] X ^ {T} X [/ matemática] no existe, lo que resulta que la estimación de OLS puede no ser única.

La estimación de regresión de cresta viene dada por

[matemáticas] \ hat {\ beta} _ {cresta} = (X ^ {T} X + \ lambda I) ^ {- 1} X ^ {T} Y \ tag {8} [/ matemáticas]

Para la regresión de cresta, estamos agregando un pequeño término [math] \ lambda [/ math] a lo largo de las diagonales de [math] X ^ {T} X [/ math]. Hace que la matriz [matemática] X ^ {T} X + \ lambda I [/ matemática] sea invertible (todas las columnas son linealmente independientes).

La regresión de cresta no produce una estimación imparcial como regresión lineal. Produce una estimación imparcial.

[matemáticas] E [\ hat {\ beta} _ {cresta}] \ neq \ beta \ tag {9} [/ matemáticas]

Sabíamos que, si aumenta el sesgo de una estimación, la varianza de la estimación disminuirá. Si no tiene claro el concepto Bias- Variance Trade-off, consulte https://www.quora.com/What-is-an…

Trataré de explicar el sesgo de regresión de cresta y el equilibrio de la varianza geométricamente.

Esta es la gráfica de contorno de la función objetivo de regresión de cresta. La elipse concéntrica indica la suma del término cuadrado. Cuando nos movemos hacia una elipse más pequeña desde la elipse externa, la suma del término cuadrado disminuirá. El círculo en el medio indica plazo de penalización. El punto óptimo es un punto que es un punto común entre la elipse y el círculo, y que proporciona un valor mínimo para la función anterior.

La regresión de cresta reduce la varianza de la estimación porque limita el espacio en el que puede vivir el vector de parámetros [math] \ beta [/ math]. Solo dentro del círculo, el vector de parámetros [math] \ beta [/ math] es factible. Pero, es posible que la verdadera [matemática] \ beta [/ matemática] pueda vivir fuera del círculo. Significa que [math] \ hat {\ beta} _ {ridge} [/ math] está sesgado. Entonces, surge la pregunta de qué es un radio (s) óptimo (s) de círculo y un parámetro lagrangiano óptimo ([math] \ lambda [/ math]).

No necesitamos tratar esos dos parámetros por separado porque están estrechamente relacionados. Vea la función de optimización de regresión de crestas. Si s toma un valor [math] \ infty [/ math], entonces [math] \ lambda [/ math] será cero. La solución resultante de esa función no es más que OLS. Si [math] \ lambda [/ math] toma un valor [math] \ infty [/ math] o un valor muy grande, entonces todos los coeficientes serán cero. Significa que s será cero. Muestra que [math] \ lambda [/ math] ys están inversamente relacionados. Entonces, solo necesitamos controlar un solo parámetro para encontrar el mejor estimador para una regresión de cresta. También entendimos que un radio óptimo depende del parámetro ([math] \ lambda [/ math]). Podemos encontrar el valor óptimo [math] \ lambda [/ math] usando la validación cruzada K-fold.

Los mínimos cuadrados ordinarios resuelven el siguiente problema:

[matemáticas] \ min _ {\ beta} \ sum_i (y_i – x_i \ beta) ^ 2 [/ matemáticas]

Ridge resuelve un problema de mínimos cuadrados penalizados:

[matemáticas] \ min _ {\ beta} \ sum_i (y_i – x_i \ beta) ^ 2 + \ lambda \ sum_k \ beta_k ^ 2 [/ matemáticas]

La idea básica es que estamos penalizando los valores de [math] \ beta_k [/ math] que están demasiado lejos de cero.

Podemos ver cómo esto afecta la elección de [math] \ hat {\ beta}: [/ math] (aquí uso la notación de matriz para que [math] X [/ math] sea a [math] n \ times k [ / matemática] matriz)

[matemáticas] \ hat {\ beta} ^ {ols} = (X’X) ^ {- 1} X’Y [/ matemáticas]

[matemáticas] \ hat {\ beta} ^ {cresta} = (X’X + \ lambda I) ^ {- 1} X’Y [/ matemáticas]

Lo que estamos haciendo es agregar una matriz diagonal con \ [math] lambda [/ math] en diagonal a la matriz [math] X’X [/ math]

Entonces que hace esto?

Suponga que cada columna de [math] X [/ math] es ortogonal / linealmente independiente. Entonces podemos escribir:

[matemáticas] \ hat {\ beta ^ {cresta}} = \ hat {\ beta} ^ {ols} \ cdot \ frac {n} {n + \ lambda} [/ math]

Por lo tanto, estamos tomando nuestras estimaciones de mínimos cuadrados y reduciéndolos a cero con un factor de contracción que depende de nuestro término de penalización [math] \ lambda [/ math] (se reduce menos cuando tenemos más datos). Para [matemática] \ lambda [/ matemática] fija, nuestra estimación será coherente pero no imparcial .

El problema con el enfoque de Ridge es que nuestras estimaciones de regresión siempre estarán sesgadas hacia cero siempre que [math] \ lambda> 0 [/ math].

Entonces, ¿qué problema resuelve Ridge ?:

  1. Si tiene más regresores [matemática] k [/ matemática] que observaciones [matemática] n [/ matemática], entonces [matemática] (X’X) ^ {- 1} [/ matemática] no existe (la matriz no es invertible). Sin embargo, [math] (X’X + \ lambda I) ^ {- 1} [/ math] puede ser invertible para un [math] \ lambda [/ math] suficientemente grande. (Este es un viejo truco: agregue un poco a la diagonal hasta que pueda invertir la matriz).
  2. Suponga que la matriz [matemática] X’X [/ matemática] es estrictamente invertible, pero que dos regresores en [matemática] X [/ matemática] están altamente correlacionados. Puede haber una fuerte relación entre [matemática] X_1 [/ matemática] y [matemática] Y [/ matemática], y ninguna relación entre [matemática] X_2 [/ matemática] y [matemática] Y [/ matemática]. En OLS pude encontrar una relación espuria entre [matemáticas] X_2 [/ matemáticas] y [matemáticas] Y. [/ Matemáticas]
  3. (Versión alternativa de (2)). Pequeños cambios en [matemática] X [/ matemática] pueden conducir a grandes cambios en [matemática] (X’X) ^ {- 1} [/ matemática] cuando los elementos de [matemática] X [/ matemática]. Esto significa que la varianza de nuestra estimación de [math] \ hat {\ beta} ^ {ols} [/ math] es grande. Todas las estimaciones se enfrentan a un equilibrio de sesgo-varianza. Lo que está haciendo la cresta es agregar algo de sesgo para reducir la varianza. Al agregar cierta cantidad [math] \ lambda [/ math] a la diagonal de [math] X’X [/ math], estabilizamos ese inverso para que pequeños cambios en [math] X [/ math] ya no conduzcan a grandes cambios en [matemáticas] (X’X + \ lambda I) ^ {- 1} [/ matemáticas].

¿Cómo funciona esta compensación? Si estamos interesados ​​en minimizar nuestro error de predicción, la métrica que usamos a menudo es el error cuadrático medio.

[matemáticas] MSE (\ hat {\ beta}) = E [| \ hat {\ beta} – \ beta | ^ 2] = Sesgo (\ hat {\ beta}) ^ 2 + Var (\ hat {\ beta} )[/mates]

Cuando nuestros elementos de [matemática] X [/ matemática] están altamente correlacionados, o cuando tenemos pocos grados de libertad [matemática] n [/ matemática] solo un poco más grande que [matemática] k, [/ matemática] el término de varianza conduce a la media error al cuadrado, y estamos dispuestos a cambiar algunos sesgos por menos varianza. (El estimador OLS es imparcial y, por lo tanto, solo importa el término de varianza).

En términos de aplicaciones, hay muchos ejemplos donde [math] k [/ math] es grande (o al menos altamente correlacionado) yn es pequeño. Muchos en campos como la biología o la medicina (tal vez tenemos 30 sujetos en un fMRI pero tenemos 30,000 mediciones de cada fMRI). Menos popular en la econometría, donde a menudo nos interesan las interpretaciones causales de [matemáticas] \ beta [/ matemáticas] en lugar de la predicción pura.

Es una regresión lineal con penalización de la Norma L2. Entonces la función de costo es:

Costo = inexactitud + suma alfa * (sqrt (peso ^ 2))

En otras palabras, se agrega una penalización para los pesos grandes, por lo que la función intenta ajustar los datos y al mismo tiempo mantener los pesos lo más pequeños posible. Un alfa más alto hace que trate de mantener los pesos más pequeños y el riesgo de tener una mayor inexactitud. Aquí ‘inexactitud’ puede ser cualquier métrica, como pérdida al cuadrado, pérdida de registro, etc.

More Interesting

¿Cuáles son las principales diferencias entre la regresión logística, la red neuronal y las SVM?

¿Cómo puede una red neuronal ser capaz de razonamiento simbólico? ¿Cómo puede unir variables?

¿Dónde debo comenzar si quiero escribir un algoritmo de etiquetado y clasificación de oraciones?

Si quiero comenzar con el aprendizaje profundo, ¿debería comprar una GPU de gama baja o aprovechar una solución en la nube? ¿Cuál es más barato / mejor?

¿Cuáles son los límites de los modelos ocultos de Markov en la minería de texto?

¿Cuál es el significado de 'distribucionalmente similar' en PNL?

¿Cómo puede la regularización simplificar las hipótesis?

¿Cómo es el nano grado de aprendizaje automático de Udacity en comparación con la especialización de aprendizaje automático de Coursera, cuál es mejor?

¿Cómo revolucionaría el mundo la PNL perfecta por computadoras?

¿Cómo se puede aplicar el aprendizaje automático al póker?

¿Por qué estudiar el procesamiento del lenguaje natural?

¿Son las redes neuronales artificiales la única forma de establecer un aprendizaje profundo?

¿Por qué el embolsado es más preciso que solo mirar todo el conjunto de datos y tomar el promedio?

Si quiero aprender mucho sobre IA, aprendizaje automático y ciencia de datos, y no tengo absolutamente ninguna experiencia sobre ellos, ¿por dónde empiezo?

Cómo configurar las dimensiones de la capa y la conectividad en Caffe para reproducir una CNN a partir de un trabajo de investigación