¿Qué es la regularización neta elástica en el aprendizaje automático?

El método de regularización de red elástica incluye los métodos de regularización LASSO (L1) y Ridge (L2).

Sobreajuste : La idea central detrás de los algoritmos de aprendizaje automático es construir modelos que puedan encontrar las tendencias generalizadas dentro de los datos. Sin embargo, si no se toman medidas, a veces los modelos tienden a memorizar los datos en lugar de aprender los patrones. Durante tales casos, aunque el modelo se ajusta bien a los datos de entrenamiento (el modelo arroja resultados precisos cuando se evalúa en los datos de entrenamiento), sin embargo, se evaluó mal en los datos de la prueba. Esto se llama sobreajuste.

La regularización se utiliza para evitar sobreajustar el modelo a los datos de entrenamiento. Esto se logra perturbando levemente (agregando ruido) la función objetivo del modelo antes de optimizarlo (optimizar un modelo significa encontrar los parámetros del modelo w * de modo que se encuentre el argmin / argmax de la función objetivo; en otras palabras, es para encontrar los óptimos globales de la función objetivo). En la regularización L1, un ruido de magnitud lambda. w * | se agrega mientras que en la regularización L2, ruido de magnitud lambda. w * |. | w * | está agregado. donde | w * | es la magnitud del vector de parámetros óptimo.

En Elastic Net Regularization, se agrega una suma lineal de ambos ruidos. Por lo tanto, la función objetivo sería entonces

Tenga en cuenta que las regularizaciones L1 y L2 son casos especiales de regularización de Elastic Net.

¿Alguien tiene alguna recomendación sobre el aprendizaje de la regularización de red elástica en el aprendizaje automático? Actualmente soy un estudiante universitario que intenta aprender a mi propio ritmo. He oído hablar de sitios como Coursera y Experfy’s Lasso and Ridge Regression Course, pero estoy buscando otras recomendaciones que la gente pueda tener.

Gracias.

La regresión neta elástica combinó las normas L1 (LASSO) y las normas L2 (regresión de cresta) en un modelo penalizado para la regresión lineal generalizada. Esto le da propiedades de dispersión (L1) y robustez (L2). Adjunto un breve PPT que incluye estos 3 métodos: https://www.slideshare.net/Colle

La regularización se utiliza para evitar el sobreajuste del modelo en los datos de entrenamiento.

Lasso (L1) y Ridge (L2) son las técnicas de regularización más utilizadas.

La regresión de cresta no pone a cero los coeficientes, penaliza el cuadrado de los coeficientes

En Lasso, algunos de los coeficientes pueden ser cero, lo que significa que también hace una selección variable. Lazo penaliza los coeficientes a diferencia de la cresta (que penaliza los cuadrados de coeficientes)

Tanto Ridge como Lasso se combinan para obtener una técnica de regularización híbrida llamada red elástica.

More Interesting

¿Cómo es tomar 9.520 (teoría de aprendizaje estadístico) en el MIT?

¿Qué versión de Python debería usar en 2016 en Machine Learning y Data Science, Python 2.7 o Python 3.0+?

¿Cuáles son todas las diferencias entre el aprendizaje en línea y el aprendizaje fuera de línea con backpropagation?

¿Cuáles son las ventajas y desventajas de utilizar una combinación de impulso + árboles de decisión frente a algún otro enfoque en un problema de clasificación?

¿Qué son los SVM?

¿Existe alguna comparación entre las técnicas SLAM monoculares recientes, especialmente aquellas basadas en un aprendizaje profundo?

¿Se pueden usar datos generados por simulación por computadora para algoritmos de aprendizaje automático?

¿Cuáles son los modelos de redes neuronales más básicos que un principiante debe aprender?

¿Por qué no reescalamos el vector de coeficiente de una regresión de lazo?

¿Cómo creo un conjunto de datos como MNIST para reconocer caracteres de otro idioma? Tengo un conjunto de datos como una carpeta de imágenes. ¿Cómo uso eso en Tensorflow?

En problemas de optimización matemática, a menudo se usa la primera derivada. ¿Por qué no el segundo, o derivados de orden superior?

¿Debería Facebook usar el aprendizaje automático para identificar a los usuarios con potencial de convertirse en un asesino en masa?

Cómo usar la red neuronal de retardo de tiempo para la clasificación del conjunto de datos MNIST

¿Qué debo buscar al comprar una computadora para ejecutar experimentos de Machine Learning?

¿Debo aprender el aprendizaje automático y el desarrollo de aplicaciones de Android simultáneamente? En caso afirmativo, ¿a qué lenguaje (s) de programación debo recurrir?