Utilizando la regresión logística y la regularización L1 / L2, ¿debo preocuparme por la selección de características?

Si está utilizando la regularización L1, entonces probablemente le interese la selección de funciones, ya que esa es su principal potencia. Reduce la complejidad del modelo aprendido al hacer que algunas características se ignoren por completo, lo que se denomina escasez. Como comentario aparte, pero como lo mencionas, la regularización L2 no es realmente fuerte para la selección de características, sino que trata de reducir la complejidad del modelo al evitar una ponderación muy grande en las características.

Para responder a su pregunta … Al usar la regularización L1, ya está pensando en la selección automática de funciones. La verdadera pregunta es: ¿debería preocuparse más por la selección de funciones? Eso depende de su problema, cuánto tiempo tiene y su nivel de experiencia.

Si usa la regularización L1 y sabe lo que significan las características, entonces es una buena práctica observar los pesos resultantes para ver qué características se seleccionaron / ignoraron. Comprueba cuán sensato es esto: en particular, observa si se desactivaron las funciones que sabes (o crees) que deberían ser importantes. Si es así, es posible que deba considerar el escalamiento adecuado o las técnicas de ingeniería de características que involucran combinaciones de las características existentes.

Si tu puedes. La regularización penalizará los términos que aumentan la complejidad del modelo sin mejorar su fidelidad, pero no hará la selección de características e ingeniería para usted. Para eso, puede usar PCA, CCA y otros métodos de reducción de dimensiones.

Siempre debe preocuparse por la selección de funciones, a menos que sepa, a priori , exactamente qué funciones desea en su modelo.