¿Cómo se determina el rango de posibles valores lambda cuando se realiza la validación cruzada en una regresión de lazo?

Los valores máximos y mínimos tomados por el parámetro de regularización (ajuste) pueden obtenerse buscando el valor más grande que dé como resultado la reducción a cero de todos los coeficientes de regresión y el valor más pequeño que produzca efectivamente una estimación completamente densa / no regularizada.

Sin embargo, elegir el número y el espaciado de valores discretos para indexar la ruta de regularización ha sido en su mayor parte más arte que ciencia. El desafío es tanto computacional como el hecho de que el espacio necesario a menudo depende de la estructura de los datos subyacentes y, por lo tanto, de la aplicación específica. Cuando toda la ruta de regularización se comporta bien con una solución analítica [1], el uso de una gruesa cuadrícula de puntos con espaciado lineal o de registro y alguna forma de búsqueda de cuadrícula es adecuada, tal como se implementa en scikit-learn. Sin embargo, es demasiado fácil equivocarse, aunque algunas estrategias incluyen la perturbación aleatoria de los parámetros de ajuste [2–3] Por lo tanto, resultan en estimadores mal ajustados y la “tiranía de los parámetros de ajuste” general.

Los avances recientes en la comunidad de aprendizaje automático [3–5] utilizan la teoría de decisión secuencial y el aprendizaje de refuerzo para optimizar el espacio de los parámetros de ajuste y tienen como objetivo resolver este problema de manera más rigurosa y para problemas generales en los que es fácil pasar por alto mejores modelos al no observar El rango correcto de valores para el parámetro de ajuste. Todavía no se ha aplicado de manera más universal a los diversos estimadores regularizados que existen.

[1]: Friedman, Jerome, Trevor Hastie y Rob Tibshirani. “Rutas de regularización para modelos lineales generalizados a través del descenso de coordenadas”. Revista de software estadístico 33.1 (2010)

[2]: Gu, B. y Ling, C .. (2015). Un nuevo algoritmo de ruta de error generalizado para la selección del modelo. Actas de la 32ª Conferencia Internacional sobre Machine Learning

[3a]: Meinshausen, Nicolai y Peter Bühlmann. “Selección de estabilidad”. Revista de la Royal Statistical Society: Serie B (Metodología estadística) 72.4 (2010): 417-473.
[3b]: Wang, Sijian y col. “Lazo al azar”. Los anales de las estadísticas aplicadas 5.1 (2011): 468.

[4]: Bergstra, James y Yoshua Bengio. “Búsqueda aleatoria para la optimización de hiperparámetros”. Journal of Machine Learning Research 13.Feb (2012): 281-305.

[5]: Jones, Donald R. “Una taxonomía de métodos de optimización global basados ​​en superficies de respuesta”. Journal of global optimization 21.4 (2001): 345-383.

[6]: documentación de la API de skopt

More Interesting

¿Cuáles son algunos de los desafíos y oportunidades sobresalientes en el análisis predictivo con respecto a la privacidad y la propiedad de los datos, el análisis de los datos del usuario, el escalado de algoritmos y los ecosistemas e intercambios de datos emergentes?

¿Cuántos selfies debe leer un Machine Learning antes de poder discernir el origen étnico?

¿Qué algoritmos son buenos para usar en el procesamiento del lenguaje natural?

¿Un doctorado en aprendizaje automático centrado en un tema que no sea el aprendizaje profundo seguirá siendo comercializable (en la industria) en 2020?

¿Está nuestro cerebro conectado para reconocer y admirar la simetría o otros animales también muestran rasgos similares?

¿Cuál es la principal diferencia entre el aprendizaje profundo y los viejos enfoques de aprendizaje?

¿Cómo detectar el sarcasmo en frases u oraciones mientras se extrae texto? ¿Hay alguna metodología utilizada?

¿Cuáles son los mejores software de aprendizaje automático de código abierto para reconocimiento facial?

En optimización, ¿cuáles son algunos ejemplos geniales de reformulación?

Cómo llamar a clasificadores y conjuntos de datos de WEKA a Netbeans IDE 7.1

Con la introducción de la inteligencia artificial, ¿podrán las computadoras tener un alto coeficiente intelectual?

¿Qué título debo tomar para entrar en la investigación de Deep Learning? (Graduado de CS)

¿Existe alguna directriz para diseñar redes neuronales en términos de número de capas ocultas, número de unidades ocultas, tamaño de filtro (CNN) y paso de tiempo (RNN)?

¿Cómo se hacen análisis de datos, estadísticas y aprendizaje automático en big data?

¿Qué tema es adecuado para un taller de aprendizaje automático para estudiantes de secundaria típicos?