En R, ¿qué significa elegir lambda por validación cruzada (cresta, lazo)?

Comencemos con lo básico, la regresión lineal, en un simple intento de datos en 2-d para encontrar la línea que se ajuste a los datos. es decir, línea a lo largo de la extensión de los puntos de datos.

Por ejemplo, el gráfico siguiente muestra puntos de datos en 2-d, en rojo y la línea de regresión en azul.

Fuente: Quora

Por lo tanto, puede haber varias formas de poner una línea a lo largo de estos puntos de datos. Pero lo que necesitamos es una línea que se adapte principalmente a la mayoría de los datos. Soy intencionalmente vago aquí porque hay múltiples formas de definir qué es un buen ajuste.

Una forma interesante de definir dicho ajuste es minimizando la suma de los errores al cuadrado o los mínimos cuadrados. La intuición detrás de los mínimos cuadrados o la suma mínima del error al cuadrado es, si la diferencia entre el punto real (puntos azules) en el gráfico anterior y el valor predicho (línea azul en el gráfico anterior) es mínima, entonces el valor predicho y el valor real está muy cerca. es decir, si las líneas amarillas (errores) se convierten en longitud cero, se predice el punto de datos real, es decir, el modelo se ajusta exactamente a los datos.

Matemáticamente, tratamos de minimizar [matemáticas] \ sum_ {i = 1} ^ n (y_i – f (x_i)) ^ 2 [/ matemáticas]

Este es el método de mínimos cuadrados.

En cuanto a la cuestión de lambda, como de todas las cosas en la vida, la regresión lineal no es lo suficientemente buena por sí misma. En virtud de la optimización, tratamos de introducir más puntos de datos en el modelo y el modelo comienza a memorizar los datos, o la función de regresión funciona mejor solo para estos puntos de datos localizados. Por lo tanto, no se puede generalizar, las predicciones del modelo no se cumplirían porque el modelo aprende a trabajar solo con los puntos de datos de entrenamiento.

Entonces, para evitar esta memorización, o un ajuste excesivo, presentamos un nuevo concepto de regularización. Entonces, lo que intentamos hacer ahora es optimizar un multiplicador lambda con el valor absoluto para lazo y el valor cuadrado para cresta de la siguiente manera,

[matemáticas] \ min_ {\ beta \ in \ mathbb {R} ^ p} \ left \ {\ frac {1} {N} \ left \ | y – X \ beta \ right \ | _2 ^ 2 + \ lambda \ | \ beta \ | _1 \ right \} [/ math]

Observe que [math] \ beta [/ math] es el coeficiente de la regresión y [math] \ lambda [/ math] es el término de regularización. Ahora, intuitivamente, lo que hace es en lugar de un ajuste exacto, coloca la línea de tal manera que se ajuste al modelo, también podría ser aplicable a los nuevos datos que exhiben el mismo patrón. es decir, generaliza más que un ajuste estricto.

Esta lambda depende de los datos, y no existe una regla universal sobre cómo debería ser una lambda. Por lo tanto, para encontrar el valor óptimo de lambda, se crean varios modelos utilizando validación cruzada y el lambda se promedia entre los modelos con mejor rendimiento.

¡Ahí vas! Espero que esto responda la pregunta.