Esta respuesta puede ser algo tangencial a la pregunta en cuestión porque el uso de PCA fue secundario (después de la aplicación de un algoritmo de clasificación de características para reducir la dimensionalidad del conjunto de datos) antes de la clasificación con un SVM.
Trabajé en un proyecto de clasificación de imágenes el año pasado que usó un enfoque SVM de uno contra todos para clasificar imágenes de arte por temas con cuatro etiquetas de clase. Tuve cierto éxito al usar PCA como métrica para clasificar las características antes de la clasificación. Primero se usó un algoritmo de clasificación de características para reducir la cantidad de características para cada par de clases y luego se usó PCA para ayudar a fusionar las principales “mejores” características de todas las clasificaciones antes de la clasificación. Experimenté con una serie de diferentes características bien conocidas utilizadas en el reconocimiento de escenas y la clasificación de imágenes. También combiné vectores de características que demostraron ser complementarios. Los vectores de características sin procesar que resultaron de esto fueron bastante grandes (> 10K elementos de características en algunos casos) que creo que conducen a una variación mayor a la deseada durante el tren / prueba.
En un esfuerzo por minimizar la varianza y el error de prueba, me cansé de usar un algoritmo de clasificación de características para reducir la cantidad de características para cada uno de los 6 pares de clases. Cada par de clases resultó en una clasificación de características diferente y necesitaba una forma de fusionar colectivamente las características clasificadas N principales de las 6 listas clasificadas. Una combinación uniforme es un enfoque, pero elegí probar y usar PCA como base para derivar una métrica simple que podría usarse para seleccionar un conjunto “mejor” de las principales características de N de todas las listas clasificadas. Utilicé 20 PC para el ranking, pero menos parecían funcionar igual de bien. La siguiente gráfica muestra el atractivo intuitivo para las dos primeras PC. Por ejemplo, la proximidad de las dos etiquetas de clase (“Naturaleza muerta” y “Gente”) aumenta el énfasis para esas etiquetas al seleccionar el conjunto final de N características en todas las etiquetas de clase. Por otro lado, para “Personas” y “Paisajes marinos”, la separabilidad en el espacio de la PC es más clara y, por lo tanto, se dio menos énfasis a esas clasificaciones de características basadas en la métrica derivada de la PCA.
- Tengo una entrevista telefónica técnica para una pasantía la próxima semana con el aprendizaje automático y el equipo de fraude de Uber. ¿Debo esperar DS y algoritmos generales o algo más?
- ¿Es posible que, en el futuro, los países sean manejados por una súper computadora que calcule el mejor resultado de una decisión política?
- ¿Hay alguna manera de usar Machine Learning para predecir el resultado de un lanzamiento de moneda?
- ¿Cuáles son las ventajas y desventajas de la traducción automática estadística y basada en reglas?
- ¿Hay un LSTM en TensorFlow que procesa un carácter a la vez?
Al final, no estoy seguro de cuánto beneficio tendría esto con otros conjuntos de datos. El resultado final fue una varianza reducida y una reducción de aproximadamente el 1-2% en el error de prueba sobre la clasificación uniforme (sin embargo, la precisión de la clasificación ya era bastante alta ~ 90%).