¿Cómo se calcula la probabilidad de un modelo de regresión de cresta?

La función de verosimilitud en una regresión de Ridge.

No estoy seguro de por qué se necesita la función de verosimilitud en un modelo de regresión de Ridge. Por lo general, la función de probabilidad se usa para estimar los parámetros al maximizar la función de probabilidad para obtener la mejor estimación. En un modelo de regresión donde existe una dependencia lineal entre las variables predictoras, se complica un poco, y los coeficientes o los parámetros que se estiman a partir de las ecuaciones normales correspondientes son insesgados pero con alta varianza. Entonces, se usa la regresión de Ridge que produce estimaciones sesgadas pero con una varianza reducida, por lo que reduce el error residual.
Sin embargo, para obtener la función de verosimilitud, es necesario tener alguna idea acerca de la dependencia lineal entre los predictores, y puede formularse en forma matemática.
Por ejemplo, tomemos un caso simple. Deje que la variable de respuesta sea Y
y los predictores son X₁ y X₂. Para obtener la función de verosimilitud, uno debe conocer la densidad conjunta joint (X₁X₂Y) y el rango de variaciones para cada uno. Para la probabilidad, entonces encontramos el producto para toda la muestra para cada una de las variables. Al no ser independientes, no podemos usar los productos de las densidades de probabilidad. Entonces, la relación lineal se usa para expresar uno de los predictores en términos del otro y usar solo uno de los predictores. Supongamos que tenemos una idea de que la relación es X₁ + X₂ = 10. Y eso es una restricción para los predictores, y eso se usa para reducir la complicación de obtener la función de probabilidad. Conocer la naturaleza de la dependencia es importante.
Sin embargo, no siempre hay solo 2 predictores, sino más de dos. Entonces, dependiendo de lo que se necesita evaluar, la probabilidad debe ser cuidadosamente construida.

Para un nivel dado de regularización, puede tomar la vista bayesiana y representar la regularización como un Gaussiano diagonal antes de sus coeficientes, con un mapeo uno a uno entre la varianza de este Gauss y el parámetro de regularización. Luego puede calcular la probabilidad de registro como una suma de la MLE y la densidad gaussiana de registro.