Gracias por el A2A!
Existen algunas reglas generales para elegir la cantidad de componentes que funcionan bien en la práctica. Ninguno de estos es mejor por decir. Dependen de lo que funciona bien para su modelo. Las reglas usan el porcentaje de variación explicado por el componente o los propios valores propios. Explicaré algunos a continuación:
Regla de detención de Kaiser
- ¿Cuáles son las mejores bibliotecas y paquetes de Python para la ciencia de datos?
- ¿Cuáles son algunos mitos comunes que existen hoy sobre el aprendizaje automático?
- ¿Puede un desarrollador de Java entrar en big data y análisis sin ninguna experiencia previa?
- ¿Cuáles son las 25 principales compañías en ciencia de datos?
- ¿Qué es el big data en tiempo real?
Este es fácil. Simplemente elija todos los componentes cuyos valores propios sean mayores que 1. La base de esta práctica proviene del hecho de que los valores propios asociados con un componente son esencialmente una medida de cuán grande es el efecto que esa variable tiene en su entrada.
Prueba de Scree
Esta prueba es en gran medida visual, ya que traza su número de componente en el acceso horizontal y sus valores propios en el eje vertical. La regla es simplemente elegir el número de componentes cuando la pendiente comienza a nivelarse. Observe la siguiente figura del NIH:
En este ejemplo, debe elegir tres componentes.
Porcentaje de varianza acumulativa
Para encontrar la varianza explicada por cada componente, debe dividir el valor propio de cada componente por la suma de todos los valores propios. Para encontrar la varianza acumulativa explicada por un componente C3, debe agregar la varianza explicada por los componentes (C1, C2, C3). Esta prueba también se puede realizar visualmente.
Aquí puede elegir visualmente entre 5 y 7 componentes.
Sin embargo, suponga que quiere algo más riguroso y reproducible. Sugeriría designar algunos [math] \ epsilon [/ math] para que termine cuando el cambio en la pendiente sea menor que este valor. Esto requeriría aproximar la pendiente para cada par de puntos vecinos en su curva. Notará que estos cambios se aplanan a medida que los cambios en la variación explicada se hacen más pequeños.