Para las selecciones de características, ¿cuál deberíamos preferir, PCA (basado en la matriz de correlación) para reducir la dimensión o Xgboost (basado en el árbol)?

El análisis de componentes principales (PCA) produce las direcciones que maximizan la varianza de los datos. En otras palabras, proyecta todo el conjunto de datos en otro subespacio de características donde la covarianza entre las nuevas características se reduce al mínimo, como si fueran variables estadísticamente independientes. Las características resultantes son características nuevas que son las combinaciones ortogonales de características anteriores. No ayuda mucho identificar la característica correcta del conjunto de datos original. PCA ciertamente reduce las dimensiones, pero no en términos de los vectores de características que tiene inicialmente, sino en términos de nuevos vectores de características complejas. Ignora sus etiquetas de características.

Wikipedia: “A menudo, se puede pensar que su operación (PCA) revela la estructura interna de los datos de una manera que explica mejor la variación en los datos. Si un conjunto de datos multivariante se visualiza como un conjunto de coordenadas en un espacio de datos de alta dimensión (1 eje por variable), PCA puede proporcionar al usuario una imagen de menor dimensión, una proyección de este objeto cuando se ve desde su punto de vista más informativo. Esto se hace utilizando solo los primeros componentes principales para que se reduzca la dimensionalidad de los datos transformados “.

Si está buscando identificar qué vector de características tiene la mayor correlación con el valor objetivo en cuestión, el paquete XGBoost (es decir, un método basado en un árbol) tiene un módulo de selección de características llamado “plot_importance” que puede darle exactamente eso. Clasifica sus columnas en el orden de correlación de importancia de características con la variable de destino.