¿Tiene sentido usar la selección de características antes de Random Forest?

Tiene sentido si el tamaño de su función es lo suficientemente grande. Si tiene tantas funciones, siempre debe optar por un método de selección de funciones sin supervisión y ver qué cambios ofrece.

Sin embargo, Random Forest es un algoritmo muy poderoso cuando se usa con hiper-parametrización adecuada (optimizando tanto el número de tress como el número de características en cada nodo). Además, es propenso a un ajuste excesivo, a diferencia de los algoritmos de aumento de gradiente. Entonces, ten cuidado con eso.

Si usa el método de búsqueda de cuadrícula y el tamaño de su función no es tan grande, la selección de funciones no es necesaria, en mi opinión. Seleccionará automáticamente las mejores características en cada nodo de los árboles de conjunto.

Pero, sugeriría experimentar con diferentes cosas y ver qué sucede usted mismo. Así es como realmente obtienes el mejor modelo.

Depende de la cantidad de predictores. Si hay muchas características que pueden presentar problemas computacionales, definitivamente use la selección de características; si no, probablemente estés bien como está. Un ejemplo común es usar PLINK para encontrar genes importantes en un estudio de asociación de todo el genoma, luego ingresarlos en un modelo de bosque aleatorio.

Tengo una descripción general aquí: https://www.slideshare.net/Colle

Si tiene muchas características, ¿por qué no?

Tan rápido como entrenarán los Bosques Aleatorios, siguen siendo lentos si tienes unas 6000 características y 100000 ejemplos (números elegidos arbitrariamente).

Siempre puede modelar antes y después de la selección de características y comparar.