¿Cuáles son los diferentes métodos de reducción de dimensionalidad en estadística?

Hay tantos … primero, vamos a dividirlo en “selección de características” y “extracción de características”

Algunos ejemplos de selección de funciones:

– Regularización L1 (p. Ej., Regresión logística) y dispersión
– umbrales de varianza
– Eliminación de características recursivas basada en los pesos de los modelos lineales.
– bosques aleatorios / árboles adicionales y características importantes (calculadas como ganancia de información promedio)
– selección secuencial hacia adelante / hacia atrás (un artículo sobre los que he escrito hace algún tiempo: Algoritmos de selección de características secuenciales en Python)
– algoritmos genéticos
– búsqueda exhaustiva

Algunos ejemplos de extracción de características:

– El análisis de componentes principales (PCA), sin supervisión, devuelve ejes de varianza máxima dada la restricción de que esos ejes son ortogonales entre sí (también, un artículo que escribí hace algún tiempo: PCA en 3 pasos)
– El análisis discriminante lineal (LDA; no debe confundirse con la asignación de Dirichlett latente), supervisado, devuelve ejes que maximizan la separabilidad de clase (misma restricción que los ejes también son ortogonales); y otro artículo: Análisis discriminante lineal poco a poco
– Kernel PCA: utiliza el truco del kernel para transformar los datos no lineales en un espacio de características donde las muestras pueden ser linealmente separables (en contraste, LDA y PCA son técnicas de transformación lineal (el último de mis artículos que vincularé aquí 😉 Kernel PCA)
– PCA supervisada
– y muchas más técnicas de transformación no lineal, que puede encontrar muy bien resumidas aquí: reducción de dimensionalidad no lineal

Editar:
Entonces, ¿qué técnica debemos usar?
Esto también sigue el principio del “Teorema de no almorzar” en algún sentido: no existe un método que sea siempre superior; Depende de su conjunto de datos. Intuitivamente, LDA tendría más sentido que PCA si tiene una tarea de clasificación lineal, pero los estudios empíricos demostraron que no siempre es así. Aunque la PCA del núcleo puede separar los círculos concéntricos, por ejemplo, no se despliega el rollo suizo: aquí sería más apropiado la inserción localmente lineal (LLE).

En pocas palabras, debe probarlo en su conjunto de datos real y evaluar y comparar los resultados.

Personalmente, rara vez uso técnicas de reducción tenue ya que la eficiencia computacional generalmente no es un problema para mí. No necesito hacer predicciones en “tiempo real” y los conjuntos de datos con los que estoy trabajando también suelen tener un tamaño moderado. Si no, tengo acceso a una supercomputadora donde puedo ejecutar esas cosas con ram “ilimitado” y número de núcleos. Para abordar “la maldición de la dimensionalidad”, prefiero modelos regulares o técnicas de conjunto