¿Existen aplicaciones reales de uso de Elastic Net?

Empíricamente, la red elástica es más estable que el lazo cuando se trata de características altamente correlacionadas: supongamos que tiene 2 características que están casi completamente correlacionadas. Dependiendo del ruido, el lazo seleccionará aleatoriamente uno u otro (siempre que lambda no sea demasiado pequeño y que ambos sean buenos predictores de la salida) mientras que la red elástica seleccionará ambos con pesos aproximadamente iguales.

Elastic Net es un poco más complicado de optimizar que el Lazo simple (ya que necesita lidiar con el término de penalización l2) y no se puede resolver con el método de Regresión de ángulo mínimo (LARS). Sin embargo, se puede resolver de manera eficiente con el descenso coordinado (como en el artículo que menciona) o usando el descenso de gradiente estocástico (si el parámetro de regularización lambda no es demasiado fuerte, de lo contrario, el SGD es inestable).

Además, cuando la regularización se hace más ligera, se seleccionan muchas más características por medio de una red elástica y la velocidad de convergencia del descenso coordinado puede ser mucho más lenta.

Personalmente lo probé con éxito para las tareas de clasificación de texto (usando el SGD con una pérdida de bisagra o una pérdida de l2 + la penalización neta elástica). En mis pruebas con bolsas de características TF-IDF de dos gramos, es un poco (tal vez no significativamente) mejor que las SVM lineales tradicionales (modelos lineales con pérdida de bisagra y penalización l2), pero cerrando muchas características innecesarias, por lo tanto, naturalmente puede conducir a más modelos compactos si explota la escasez del vector de pesos.

En contraste, usar solo la penalización l1 (como en Lasso) conduce a modelos con una precisión predictiva significativamente menor para problemas de clasificación de texto. En ambos casos, el valor óptimo para lambda se encontró mediante la búsqueda de cuadrícula + validación cruzada k-fold en el conjunto de desarrollo.

Supongo que Elastic Net también debería ser bueno como codificador de características no lineales (para codificación dispersa), pero hasta ahora no lo he intentado exhaustivamente.

En cuanto a la detección comprimida, no tengo idea.

Sí. Si las variables están estrechamente correlacionadas, la red elástica las combinará. El LASSO elegirá entre uno u otro.

Por otro lado, la red elástica tiene 2 hiperparámetros, en lugar de solo uno. Por esta razón, la regularización de la norma nuclear es probablemente superior. Ver: una regularización de la norma de seguimiento para diseños correlacionados

Parece un si.

Regularización neta elástica
C cortesía de Wikipedia.