¿Cuál es la mejor manera de elegir el número de componentes en PCA durante la reducción de dimensionalidad?

Gracias por el A2A!

Existen algunas reglas generales para elegir la cantidad de componentes que funcionan bien en la práctica. Ninguno de estos es mejor por decir. Dependen de lo que funciona bien para su modelo. Las reglas usan el porcentaje de variación explicado por el componente o los propios valores propios. Explicaré algunos a continuación:

Regla de detención de Kaiser

Este es fácil. Simplemente elija todos los componentes cuyos valores propios sean mayores que 1. La base de esta práctica proviene del hecho de que los valores propios asociados con un componente son esencialmente una medida de cuán grande es el efecto que esa variable tiene en su entrada.

Prueba de Scree

Esta prueba es en gran medida visual, ya que traza su número de componente en el acceso horizontal y sus valores propios en el eje vertical. La regla es simplemente elegir el número de componentes cuando la pendiente comienza a nivelarse. Observe la siguiente figura del NIH:

En este ejemplo, debe elegir tres componentes.

Porcentaje de varianza acumulativa

Para encontrar la varianza explicada por cada componente, debe dividir el valor propio de cada componente por la suma de todos los valores propios. Para encontrar la varianza acumulativa explicada por un componente C3, debe agregar la varianza explicada por los componentes (C1, C2, C3). Esta prueba también se puede realizar visualmente.

Aquí puede elegir visualmente entre 5 y 7 componentes.

Sin embargo, suponga que quiere algo más riguroso y reproducible. Sugeriría designar algunos [math] \ epsilon [/ math] para que termine cuando el cambio en la pendiente sea menor que este valor. Esto requeriría aproximar la pendiente para cada par de puntos vecinos en su curva. Notará que estos cambios se aplanan a medida que los cambios en la variación explicada se hacen más pequeños.

análisis de componentes principalesAprendizaje automáticoCiencia de datosreducción de dimensionalidad

¿Quién es elegible para el entrenamiento Hadoop de Big Data?

¿Cuál es la diferencia entre un científico de datos y un ingeniero de aprendizaje automático en LinkedIn?

¿En qué casos no podemos aplicar el análisis de datos (ordinarios) y tenemos que usar el análisis de datos topológicos? ¿Podrías dar un ejemplo concreto? ¡Gracias!

¿Qué compañía está haciendo el mejor producto de prevención de pérdida de datos en 2015?

¿Cuál es la mejor estadística para buscar una correlación entre los datos de tipo Likert y los datos nominales (sí / no)?

¿Por qué la deserción puede mejorar el problema de sobreajuste en redes neuronales profundas?

Decidir un umbral de varianza explicada. Aparte de eso, necesita ver el equilibrio entre el número de características y la varianza explicada. Si el aumento de una PC más aumenta la varianza explicada por un amplio margen, entonces definitivamente adelante. De lo contrario, deténgase allí si está satisfecho con la varianza explicada. Además, siempre verifique la precisión de su predicción con las PC incluidas. La variación explicada no siempre garantiza un buen rendimiento de predicción, que es su objetivo final. Entonces, para responder cuánto es lo suficientemente bueno, se decide por el desempeño del modelado predictivo.

Dhruv Bhatia

El que tiene el sentido más sustantivo.

Existen muchos métodos estadísticos que pueden sugerir el número de componentes (valores propios superiores a 1; variación total; prueba de inclinación, etc.). A veces están de acuerdo. A veces no lo hacen. Pero ninguno es matemáticamente demostrable para ser “correcto” porque no hay una definición estricta de “correcto” en PCA.

Dhruv Bhatia

Depende del problema. Los valores propios superiores a 1, la varianza total explicada por los componentes, las gráficas de codo … son útiles. A veces, el problema en cuestión sugerirá la cantidad de componentes. Por ejemplo, si se usa para visualizar datos, 2 o 3 componentes son una opción común, ya que esto corresponde a la representación 2-d y 3-d.

Peter Flom

El enfoque que tomo personalmente es primero probar con diferentes números de componentes. Y luego identifica cuál funciona mejor. Sé que es bastante estúpido pero funciona bastante bien.

Otro es la necesidad. A veces, hay un requisito para un cierto número de componentes.

Dhruv Bhatia

Intentaría calcular la energía total restante después de la reducción de la dimensionalidad y asegurarme de que queda aproximadamente el 90% de la energía (puede refinar su umbral de porcentaje según su aplicación / necesidades).

Puede definir la energía de varias maneras:

1.) La suma de los valores propios al cuadrado (EV) que quedan después de la proyección dividida por la suma al cuadrado de todos los EV

2.) La relación de las normas L2 de los vectores antes y después de la reducción tenue

Peter Flom

More Interesting

¿Cuál es el mejor instituto para un curso de ciencia de datos en India?

¿Qué pasos específicos debo seguir al trabajar en un conjunto de datos?

Si está aprendiendo Data Science, ¿qué tan importante es saber cómo implementar modelos de Machine Learning en lenguajes de nivel inferior (por ejemplo, C ++ o Java)?

Cómo aprender ciencia de datos con comprensión práctica (incluida la certificación)

¿Es manejable tomar el curso de especialización en ciencia de datos de John Hopkins en Coursera sin experiencia en programación?

¿Cuáles son las mejores compañías de big data en INDIA para un desarrollador de software?

¿Qué clases debo tomar como principiante en ciencias de datos?