Los valores máximos y mínimos tomados por el parámetro de regularización (ajuste) pueden obtenerse buscando el valor más grande que dé como resultado la reducción a cero de todos los coeficientes de regresión y el valor más pequeño que produzca efectivamente una estimación completamente densa / no regularizada.
Sin embargo, elegir el número y el espaciado de valores discretos para indexar la ruta de regularización ha sido en su mayor parte más arte que ciencia. El desafío es tanto computacional como el hecho de que el espacio necesario a menudo depende de la estructura de los datos subyacentes y, por lo tanto, de la aplicación específica. Cuando toda la ruta de regularización se comporta bien con una solución analítica [1], el uso de una gruesa cuadrícula de puntos con espaciado lineal o de registro y alguna forma de búsqueda de cuadrícula es adecuada, tal como se implementa en scikit-learn. Sin embargo, es demasiado fácil equivocarse, aunque algunas estrategias incluyen la perturbación aleatoria de los parámetros de ajuste [2–3] Por lo tanto, resultan en estimadores mal ajustados y la “tiranía de los parámetros de ajuste” general.
Los avances recientes en la comunidad de aprendizaje automático [3–5] utilizan la teoría de decisión secuencial y el aprendizaje de refuerzo para optimizar el espacio de los parámetros de ajuste y tienen como objetivo resolver este problema de manera más rigurosa y para problemas generales en los que es fácil pasar por alto mejores modelos al no observar El rango correcto de valores para el parámetro de ajuste. Todavía no se ha aplicado de manera más universal a los diversos estimadores regularizados que existen.
- ¿Cuáles son las ventajas y desventajas de las API de servicios cognitivos de Microsoft?
- El entrenamiento de redes neuronales profundas utilizando la propagación inversa tiene el problema de un gradiente de error que desaparece y que establece un límite sobre cuántas capas se pueden entrenar efectivamente, entonces, ¿por qué no usar un algoritmo genético para entrenar redes profundas, eliminando la propagación de errores?
- ¿Cuán verdadera es la frase '95% de los sofisticados algoritmos de 'aprendizaje automático' son lanzados a los datos por alguien que solo tiene la comprensión más superficial de lo que realmente están haciendo '?
- ¿Cómo se eligieron las palabras sesgo y varianza (Machine Learning)?
- Cómo construir un modelo de regresión lineal en el aprendizaje automático
[1]: Friedman, Jerome, Trevor Hastie y Rob Tibshirani. “Rutas de regularización para modelos lineales generalizados a través del descenso de coordenadas”. Revista de software estadístico 33.1 (2010)
[2]: Gu, B. y Ling, C .. (2015). Un nuevo algoritmo de ruta de error generalizado para la selección del modelo. Actas de la 32ª Conferencia Internacional sobre Machine Learning
[3a]: Meinshausen, Nicolai y Peter Bühlmann. “Selección de estabilidad”. Revista de la Royal Statistical Society: Serie B (Metodología estadística) 72.4 (2010): 417-473.
[3b]: Wang, Sijian y col. “Lazo al azar”. Los anales de las estadísticas aplicadas 5.1 (2011): 468.
[4]: Bergstra, James y Yoshua Bengio. “Búsqueda aleatoria para la optimización de hiperparámetros”. Journal of Machine Learning Research 13.Feb (2012): 281-305.
[5]: Jones, Donald R. “Una taxonomía de métodos de optimización global basados en superficies de respuesta”. Journal of global optimization 21.4 (2001): 345-383.
[6]: documentación de la API de skopt