¿Qué es la regresión de Ridge en términos simples?

Por lo general, pienso en la regresión de Ridge a través de la lente del error cuadrático medio (MSE).

El error cuadrático medio es una medida de la calidad de un estimador y se define como la suma de la varianza más el cuadrado del sesgo. A menudo nos centramos en estimaciones no sesgadas, pero, en algunas situaciones, la estimación no sesgada puede dar lugar a variaciones muy grandes y, como resultado, a grandes MPE.

La regresión de cresta es un método que busca reducir el MSE agregando algunos sesgos y, al mismo tiempo, reduciendo la varianza.

Desde el punto de vista de la ecuación, puede pensar en estos mínimos cuadrados ordinarios como un método que busca encontrar los coeficientes que minimizan la suma de los cuadrados de los residuos. La regresión de cresta agrega un término adicional que debe minimizarse, por lo que cuando realiza la regresión de cresta minimiza la suma de los cuadrados de los residuos y agrega una restricción en la suma de los cuadrados de los coeficientes de regresión. Este segundo término, la suma de los cuadrados del coeficiente de regresión es cómo se introduce el sesgo en el modelo.

Nota al margen interesante : Otro método que puede haber escuchado es LASSO . Puede considerarse que LASSO es similar a la regresión de cresta, excepto que en lugar de agregar la restricción en la suma de los cuadrados de los coeficientes de regresión, está agregando una restricción en la suma de los valores absolutos de los coeficientes de regresión.

L2 regresión lineal regularizada.

En la regresión lineal, encuentra un conjunto de pesos, W, de modo que el punto (w, x), donde x es una entrada, le da una predicción correcta de alguna salida. Por ejemplo, está tratando de predecir los ingresos de las características demográficas.

La regularización L2 significa que los pesos son penalizados por crecer demasiado. Por ejemplo, si intenta utilizar la demografía para predecir ingresos, podría resultar que la edad es la característica más poderosa con mucho y recibirá un peso alto, mientras que otros recibirán un peso bajo. Tal vez esto esté bien, pero tal vez solo tenga una pequeña muestra para su estimación inicial, o su muestra no sea representativa de todo lo que está tratando de predecir. En ese caso, puede usar la regresión de cresta (hay muchas otras opciones disponibles) para mantener cualquier característica única, que podría parecer predictiva debido a una coincidencia o contexto limitado, de ser ponderada demasiado. En cambio, se asegurará de que se usen muchas características, cada una ponderada con magnitudes algo similares, de modo que su predicción final sea el resultado de una mayor variedad de entradas. Esto tiende a hacer que las cosas sean más robustas y más propensas a generalizarse, por lo que si predice los ingresos en un área industrial utilizando la regresión de cresta, podría transferirse a un suburbio mejor que la regresión lineal.

Editar: Debo agregar que la regularización L1 también penaliza los pesos que crecen demasiado y parecen ser lo mismo, pero de hecho tiene aplicaciones muy diferentes. Esto se debe a la geometría. La regularización L2 “empuja” el peso con vectores de fuerza perpendiculares a la superficie de una esfera, por lo que es probable que sean bastante similares, ya que la mayor parte del volumen de la esfera se encuentra en áreas donde los pesos son similares. La regularización L1 empuja los pesos con una fuerza en la forma puntiaguda como un cubo girado, de modo que la mayoría de los pesos son cero y aquellos que no lo están están lejos de cero. Esta explicación está bien ilustrada en la página 11 de users.ece.gatech.edu/~justin/spmag/assets/csup-short.pdf (si alguien conoce una imagen directamente disponible, hágamelo saber)

La regresión lineal proporciona una estimación que minimiza la suma del error cuadrado. Para saber más acerca de la regresión lineal, consulte https://www.quora.com/Whats-the-

Para P = 2 caso,

[math] \ text {Min} \ text {SSE} \ tag {1} [/ math]

[matemáticas] Min \ sum_ {i = 1} ^ N (y_i – \ beta_0 + \ beta_1 x_ {1i} + \ beta_2 x_ {2i}) ^ {2} \ tag {2} [/ matemáticas]

La regresión de cresta proporciona una estimación que minimiza la suma del error al cuadrado y satisface la restricción de que [math] \ sum_ {j = 1} ^ P \ beta_j ^ 2 <= c [/ math]

[matemáticas] Min \ sum_ {i = 1} ^ N (y_i – \ beta_0 + \ beta_1 x_ {1i} + \ beta_2 x_ {2i}) ^ {2} \ tag {3} [/ matemáticas]

Sujeto a

[matemáticas] \ sum_ {j = 1} ^ 2 \ beta_j ^ 2 <= s \ tag {4} [/ matemáticas]

Al usar el multiplicador de Lagrange, podemos escribir la ecuación anterior como,

[matemáticas] Min \ sum_ {i = 1} ^ N (y_i – \ beta_0 + \ beta_1 x_1i + \ beta_2 x_2i) ^ {2} + \ lambda (\ sum_ {j = 1} ^ 2 \ beta_j ^ 2 -s ) \ tag {5} [/ math]

Tanto [math] \ lambda [/ math] como s son constantes. No tiene ningún impacto en la solución. Entonces, podemos escribir la ecuación anterior como,

[matemáticas] Min \ sum_ {i = 1} ^ N (y_i – \ beta_0 + \ beta_1 x_1i + \ beta_2 x_2i) ^ {2} + \ lambda (\ sum_ {j = 1} ^ 2 \ beta_j ^ 2) \ etiqueta {6} [/ matemáticas]

La ecuación anterior en forma de matriz.

[matemáticas] Min \ underbrace {(Y – \ beta ^ {T} X) ^ {T} (Y – \ beta ^ {T} X)} _ \ text {Suma del término de error Cuadrado} + \ underbrace {\ lambda \ beta ^ {T} \ beta} _ \ text {Término de penalización} \ tag {7} [/ math]

La regresión de cresta tiene dos ventajas importantes sobre la regresión lineal. La más importante es que penaliza las estimaciones. No penaliza todas las estimaciones de la función arbitrariamente. Si el valor estimado ([matemático] \ beta) [/ matemático] es muy grande, entonces el término SSE en la ecuación anterior se minimizará, pero el término de penalización aumentará. Si los valores estimados ([matemática] \ beta) [/ matemática] son ​​pequeños, entonces el término de penalización en la ecuación anterior se minimizará, pero el término SSE aumentará debido a una generalización deficiente. Por lo tanto, elige las estimaciones de la característica ([matemática] \ beta [/ matemática]) para penalizar de tal manera que las características menos influyentes (algunas características causan una influencia muy pequeña en la variable dependiente) sufren más penalización. En algunos dominios, el número de variables independientes es múltiple, y no estamos seguros de cuál de las variables independientes influye en la variable dependiente. En este tipo de escenario, la regresión de cresta juega un papel mejor que la regresión lineal.

Para saber más sobre el intervalo de confianza de la estimación de regresión, consulte https://www.quora.com/How-can-I-

Otra ventaja de la regresión de cresta sobre OLS es cuando las características están altamente correlacionadas entre sí, entonces el rango de la matriz X será menor que P + 1 (donde P es el número de regresores). Entonces, el inverso de [matemática] X ^ {T} X [/ matemática] no existe, lo que resulta que la estimación de OLS puede no ser única.

La estimación de regresión de cresta viene dada por

[matemáticas] \ hat {\ beta} _ {cresta} = (X ^ {T} X + \ lambda I) ^ {- 1} X ^ {T} Y \ tag {8} [/ matemáticas]

Para la regresión de cresta, estamos agregando un pequeño término [math] \ lambda [/ math] a lo largo de las diagonales de [math] X ^ {T} X [/ math]. Hace que la matriz [matemática] X ^ {T} X + \ lambda I [/ matemática] sea invertible (todas las columnas son linealmente independientes).

La regresión de cresta no produce una estimación imparcial como regresión lineal. Produce una estimación imparcial.

[matemáticas] E [\ hat {\ beta} _ {cresta}] \ neq \ beta \ tag {9} [/ matemáticas]

Sabíamos que, si aumenta el sesgo de una estimación, la varianza de la estimación disminuirá. Si no tiene claro el concepto Bias- Variance Trade-off, consulte https://www.quora.com/What-is-an

Trataré de explicar el sesgo de regresión de cresta y el equilibrio de la varianza geométricamente.

Esta es la gráfica de contorno de la función objetivo de regresión de cresta. La elipse concéntrica indica la suma del término cuadrado. Cuando nos movemos hacia una elipse más pequeña desde la elipse externa, la suma del término cuadrado disminuirá. El círculo en el medio indica plazo de penalización. El punto óptimo es un punto que es un punto común entre la elipse y el círculo, y que proporciona un valor mínimo para la función anterior.

La regresión de cresta reduce la varianza de la estimación porque limita el espacio en el que puede vivir el vector de parámetros [math] \ beta [/ math]. Solo dentro del círculo, el vector de parámetros [math] \ beta [/ math] es factible. Pero, es posible que la verdadera [matemática] \ beta [/ matemática] pueda vivir fuera del círculo. Significa que [math] \ hat {\ beta} _ {ridge} [/ math] está sesgado. Entonces, surge la pregunta de qué es un radio (s) óptimo (s) de círculo y un parámetro lagrangiano óptimo ([math] \ lambda [/ math]).

No necesitamos tratar esos dos parámetros por separado porque están estrechamente relacionados. Vea la función de optimización de regresión de crestas. Si s toma un valor [math] \ infty [/ math], entonces [math] \ lambda [/ math] será cero. La solución resultante de esa función no es más que OLS. Si [math] \ lambda [/ math] toma un valor [math] \ infty [/ math] o un valor muy grande, entonces todos los coeficientes serán cero. Significa que s será cero. Muestra que [math] \ lambda [/ math] ys están inversamente relacionados. Entonces, solo necesitamos controlar un solo parámetro para encontrar el mejor estimador para una regresión de cresta. También entendimos que un radio óptimo depende del parámetro ([math] \ lambda [/ math]). Podemos encontrar el valor óptimo [math] \ lambda [/ math] usando la validación cruzada K-fold.

More Interesting

¿Cómo puedo probar el método de regresión lineal?

¿Es mejor utilizar algoritmos basados ​​en reglas o de aprendizaje automático para la clasificación en un dominio de respuesta a preguntas cerrado?

¿Es posible asegurar trabajos solo en base a la experiencia en aprendizaje automático sin ser un ingeniero de software adecuado?

¿Cuáles son los mejores laboratorios de investigación en el campo de los UAV combinados con aprendizaje automático, visión y percepción por computadora?

En la clasificación SVM, ¿es posible encontrar la muestra de entrenamiento más cercana a la muestra de prueba dada?

¿Cuál es la naturaleza de la red neuronal multicapa en el aprendizaje Deep Q?

En el aprendizaje profundo, ¿cómo clasifica una imagen como desconocida?

Después de seleccionar entidades con una regresión regularizada, ¿es mejor estimar el resultado con la misma regresión regularizada o con una regresión no regularizada?

¿Cuáles son las aplicaciones no computacionales de las lecciones del aprendizaje automático?

¿Cuáles son algunos campos en los que las redes neuronales artificiales aún no se han utilizado?

¿Fallarán todos los modelos de aprendizaje automático en este conjunto de datos?

¿Qué es la mente profunda de Google?

¿Hay algún artículo que justifique la normalización de los valores de los elementos en los sistemas de recomendación?

¿Cómo funcionan las redes neuronales convolucionales?

Todos estos algoritmos de aprendizaje automático, ¿cuál es el punto? Parece que la elección del algoritmo de aprendizaje automático, el árbol de decisión, la red neuronal, svm, no es tan importante como la selección de características y el proceso de extracción de características que determina lo que entra, basura en basura, ese tipo de cosas.