¿Cómo se determina el rango de posibles valores lambda cuando se realiza la validación cruzada en una regresión de lazo? La tecnología cambia la vida futura

Los valores máximos y mínimos tomados por el parámetro de regularización (ajuste) pueden obtenerse buscando el valor más grande que dé como resultado la reducción a cero de todos los coeficientes de regresión y el valor más pequeño que produzca efectivamente una estimación completamente densa / no regularizada.

Sin embargo, elegir el número y el espaciado de valores discretos para indexar la ruta de regularización ha sido en su mayor parte más arte que ciencia. El desafío es tanto computacional como el hecho de que el espacio necesario a menudo depende de la estructura de los datos subyacentes y, por lo tanto, de la aplicación específica. Cuando toda la ruta de regularización se comporta bien con una solución analítica [1], el uso de una gruesa cuadrícula de puntos con espaciado lineal o de registro y alguna forma de búsqueda de cuadrícula es adecuada, tal como se implementa en scikit-learn. Sin embargo, es demasiado fácil equivocarse, aunque algunas estrategias incluyen la perturbación aleatoria de los parámetros de ajuste [2–3] Por lo tanto, resultan en estimadores mal ajustados y la “tiranía de los parámetros de ajuste” general.

Los avances recientes en la comunidad de aprendizaje automático [3–5] utilizan la teoría de decisión secuencial y el aprendizaje de refuerzo para optimizar el espacio de los parámetros de ajuste y tienen como objetivo resolver este problema de manera más rigurosa y para problemas generales en los que es fácil pasar por alto mejores modelos al no observar El rango correcto de valores para el parámetro de ajuste. Todavía no se ha aplicado de manera más universal a los diversos estimadores regularizados que existen.

[1]: Friedman, Jerome, Trevor Hastie y Rob Tibshirani. “Rutas de regularización para modelos lineales generalizados a través del descenso de coordenadas”. Revista de software estadístico 33.1 (2010)

[2]: Gu, B. y Ling, C .. (2015). Un nuevo algoritmo de ruta de error generalizado para la selección del modelo. Actas de la 32ª Conferencia Internacional sobre Machine Learning

[3a]: Meinshausen, Nicolai y Peter Bühlmann. “Selección de estabilidad”. Revista de la Royal Statistical Society: Serie B (Metodología estadística) 72.4 (2010): 417-473.
[3b]: Wang, Sijian y col. “Lazo al azar”. Los anales de las estadísticas aplicadas 5.1 (2011): 468.

[4]: Bergstra, James y Yoshua Bengio. “Búsqueda aleatoria para la optimización de hiperparámetros”. Journal of Machine Learning Research 13.Feb (2012): 281-305.

[5]: Jones, Donald R. “Una taxonomía de métodos de optimización global basados en superficies de respuesta”. Journal of global optimization 21.4 (2001): 345-383.

[6]: documentación de la API de skopt

Aprendizaje automáticoCiencia de datosRegresiónValidación cruzada