Cómo elegir el algoritmo de selección de funciones correcto

Hay 3 clases de algoritmos de selección de características (Selección de características – Wikipedia):

  1. Métodos de filtro: filtra las características potenciales antes de ajustar su modelo utilizando criterios que pueden no estar relacionados con el modelo.
  2. Métodos de envoltura: prueba varias combinaciones de características y se ajustan a diferentes versiones de su modelo.
  3. Métodos integrados: su modelo tiene una forma de seleccionar automáticamente las funciones integradas, generalmente mediante la regularización L1.

Por lo general, lo que desea considerar son las siguientes ideas al seleccionar una de las 3:

  1. ¿Qué tan caro es el proceso de ajuste de su modelo? Es lento, los métodos de envoltura pueden soplar su presupuesto de CPU. Esto es especialmente cierto porque los métodos de envoltura tienden a sobreajustarse, lo que requiere una validación cruzada, que requiere aún más ciclos de CPU.
  2. ¿Qué tan complejo es el modelo que estás tratando de aprender? Si es demasiado complejo, un filtro como la función frente a la correlación objetivo podría no capturar la relación no lineal. Por otro lado, un modelo lineal puede aprovechar un filtro de correlación fácilmente.
  3. ¿El método de aprendizaje automático elegido admite una rutina de selección de funciones incorporada? Si no, no puede usar métodos incrustados. Por ejemplo, un modelo regularizado L1 tiene una selección de funciones incorporada, pero a veces ofrece una peor calidad de ajuste (sin embargo, lo está puntuando) que la regularización L2 (que no hará la selección de funciones).

En general, prefiero los métodos de envoltura si tengo el presupuesto de la CPU porque no sacrifican la precisión y son fáciles de implementar. La selección de funciones integradas limita el tipo de modelo y, por lo tanto, el rendimiento potencial. Los filtros serían un último recurso total, porque generalmente no puedo pensar en una base teórica para que un filtro funcione fuera de la regresión lineal.