¿Se pueden utilizar bosques aleatorios para la selección de variables? De ser así, ¿cómo?

Respuesta corta: sí, vea los documentos de lo que sea que esté usando para el software. Pero mira la advertencia.

Respuesta más larga a la segunda parte:

Los bosques aleatorios están hechos de árboles con variables elegidas al azar en las divisiones (nodos interiores del árbol). Cualquier árbol puede darle importancias variables para un conjunto de datos dado, medido por la disminución de la impureza promediada en todas las veces que esa variable se usa para hacer una división. Los bosques aleatorios, por su naturaleza, otorgan características de características más robustas (no tengo tiempo para repasar las matemáticas ahora, pero si eres atrevido o matemático, puedes mirar el artículo de Breiman sobre bosques aleatorios; de lo contrario, podrías mirar para tutoriales sobre bosques aleatorios). Ahora, lea la advertencia.

Advertencia

Usar variables / características importantes de un bosque aleatorio para, por ejemplo, un modelo lineal, a menudo es una muy mala idea . Los árboles y, por lo tanto, los bosques, suponen que la ‘mejor’ forma de clasificar o retroceder es dividiendo el espacio de características en hiper-rectángulos . Los modelos lineales, como OLS o regresión logística, obviamente no hacen esta suposición , ni muchos otros clasificadores / regresores (lineales o no lineales).

Random Forest tiene una construcción en selección variable. Por lo tanto, puede ejecutar el bosque y tomar las variables con mayor importancia para construir otro, es decir, un modelo más simple como MARS o varios árboles simples.

El bosque aleatorio muestrea los datos y las variables para cada árbol. Por lo tanto, la importancia variable final es algo regularizada, que es la misma idea en el abandono dentro del marco de las redes neuronales. De manera similar, podemos intentar utilizarlo.

Sí, puede seleccionar en función de la clasificación de importancia o puede ejecutar una función de contenedor (al menos en R) que realiza pruebas de puntuación z (VarSel, por ejemplo). Intente buscar en Google dentro del repositorio de Cran (tenga algunos paquetes que lo hagan).

por ejemplo python :

forest = ExtraTreesClassifier (n_estimators = 250,
random_state = 0)

forest.fit (X, y)
importances = forest.feature_importances_

Si. Puede usar los criterios de variables de importancia y ver cuáles de las variables contribuyen al modelo.

More Interesting

¿Cuáles son las diferentes técnicas para el procesamiento del lenguaje natural para resolver un ensayo de clasificación automática?

¿Cuáles son algunos de los problemas abiertos más importantes en el aprendizaje automático en este momento?

¿Siri es una forma de aprendizaje automático?

¿Qué debo hacer para un bot de chat con aprendizaje automático?

¿Cuáles son las tendencias e investigaciones actuales relacionadas con la red neuronal profunda en los sistemas inteligentes de transporte?

¿Cuándo se utilizarían los bosques aleatorios sobre las máquinas potenciadas por gradiente (GBM)?

¿Apache Spark es un buen marco para implementar Reinforcement Learning?

Debido a que este será el tema de un panel en el Instituto de Verano NBER, ¿qué puede aprender la economía de Data Science y / o Machine Learning, y qué puntos sobre este tema le gustaría ver incluidos?

Andrew Ng: ¿Qué opinas sobre el futuro del aprendizaje de Bayesian Networks?

¿Cuáles son los avances más significativos del aprendizaje automático en 2017?

Cómo comenzar con la visión por computadora

Si estuviéramos usando un SVM no lineal, ¿cuáles son los hiperparámetros? ¿Cómo elegiríamos los hiperparámetros correspondientes? (funciones de referencia utilizadas)

Estoy creando una plataforma de transmisión en vivo: ¿cómo puedo conectarme y usar varias cámaras web al mismo tiempo?

¿Es la reducción de dimensionalidad igual que la selección de características? ¿Cómo hacer la selección de características usando PCA en R?

¿Qué sistemas IDS, IPS en Network Security hoy en día son los más adaptables para aprender nuevas amenazas? ¿Hay algún tipo de punto de referencia estándar para medir esto?