¿Por qué podría ser malo realizar el Análisis de componentes principales en un conjunto de datos antes de la clasificación?

No creo que sea malo en todos los casos, pero creo que la razón por la que a menudo perjudica la clasificación es porque elimina la variabilidad sin el conocimiento de las variables que son más útiles en la clasificación.

PCA encuentra una representación dimensional más baja de los datos que minimiza el error de reconstrucción al cuadrado. Si tiene características irrelevantes (a menudo el caso en la clasificación de texto), PCA cuenta los errores en aquellos con igual importancia que los errores en palabras que son importantes para su clasificación. Tomando un ejemplo como el análisis de sentimientos, la función objetivo de PCA pondera los errores en palabras como “julio” y “béisbol” tanto como “bueno”, “malo” y “excelente”. Dado que su clasificador se ejecuta en datos que tienen mucha de la variación útil eliminada, no funciona tan bien.

Dicho esto, creo que ayuda en algunos casos. No ha ayudado en nada de lo que he hecho, pero creo que es una práctica estándar cuando se hace algo como el aprendizaje profundo para el reconocimiento de imágenes. En ese caso, elimina la redundancia en la representación de entrada, y el clasificador no es lineal y tiene la capacidad de usar la entrada comprimida con éxito.