¿Cuál es la mejor manera de elegir el número de componentes en PCA durante la reducción de dimensionalidad?

Gracias por el A2A!

Existen algunas reglas generales para elegir la cantidad de componentes que funcionan bien en la práctica. Ninguno de estos es mejor por decir. Dependen de lo que funciona bien para su modelo. Las reglas usan el porcentaje de variación explicado por el componente o los propios valores propios. Explicaré algunos a continuación:

Regla de detención de Kaiser

Este es fácil. Simplemente elija todos los componentes cuyos valores propios sean mayores que 1. La base de esta práctica proviene del hecho de que los valores propios asociados con un componente son esencialmente una medida de cuán grande es el efecto que esa variable tiene en su entrada.

Prueba de Scree

Esta prueba es en gran medida visual, ya que traza su número de componente en el acceso horizontal y sus valores propios en el eje vertical. La regla es simplemente elegir el número de componentes cuando la pendiente comienza a nivelarse. Observe la siguiente figura del NIH:

En este ejemplo, debe elegir tres componentes.

Porcentaje de varianza acumulativa

Para encontrar la varianza explicada por cada componente, debe dividir el valor propio de cada componente por la suma de todos los valores propios. Para encontrar la varianza acumulativa explicada por un componente C3, debe agregar la varianza explicada por los componentes (C1, C2, C3). Esta prueba también se puede realizar visualmente.

Aquí puede elegir visualmente entre 5 y 7 componentes.

Sin embargo, suponga que quiere algo más riguroso y reproducible. Sugeriría designar algunos [math] \ epsilon [/ math] para que termine cuando el cambio en la pendiente sea menor que este valor. Esto requeriría aproximar la pendiente para cada par de puntos vecinos en su curva. Notará que estos cambios se aplanan a medida que los cambios en la variación explicada se hacen más pequeños.

Decidir un umbral de varianza explicada. Aparte de eso, necesita ver el equilibrio entre el número de características y la varianza explicada. Si el aumento de una PC más aumenta la varianza explicada por un amplio margen, entonces definitivamente adelante. De lo contrario, deténgase allí si está satisfecho con la varianza explicada. Además, siempre verifique la precisión de su predicción con las PC incluidas. La variación explicada no siempre garantiza un buen rendimiento de predicción, que es su objetivo final. Entonces, para responder cuánto es lo suficientemente bueno, se decide por el desempeño del modelado predictivo.

El que tiene el sentido más sustantivo.

Existen muchos métodos estadísticos que pueden sugerir el número de componentes (valores propios superiores a 1; variación total; prueba de inclinación, etc.). A veces están de acuerdo. A veces no lo hacen. Pero ninguno es matemáticamente demostrable para ser “correcto” porque no hay una definición estricta de “correcto” en PCA.

Depende del problema. Los valores propios superiores a 1, la varianza total explicada por los componentes, las gráficas de codo … son útiles. A veces, el problema en cuestión sugerirá la cantidad de componentes. Por ejemplo, si se usa para visualizar datos, 2 o 3 componentes son una opción común, ya que esto corresponde a la representación 2-d y 3-d.

El enfoque que tomo personalmente es primero probar con diferentes números de componentes. Y luego identifica cuál funciona mejor. Sé que es bastante estúpido pero funciona bastante bien.

Otro es la necesidad. A veces, hay un requisito para un cierto número de componentes.

Intentaría calcular la energía total restante después de la reducción de la dimensionalidad y asegurarme de que queda aproximadamente el 90% de la energía (puede refinar su umbral de porcentaje según su aplicación / necesidades).

Puede definir la energía de varias maneras:

1.) La suma de los valores propios al cuadrado (EV) que quedan después de la proyección dividida por la suma al cuadrado de todos los EV

2.) La relación de las normas L2 de los vectores antes y después de la reducción tenue