Cuando se realiza PCA en imágenes, uno tiene que construir un vector “plano” de características, donde la intensidad de cada píxel es una característica y cada imagen se representa como un vector plano (no una matriz). Por ejemplo, si tiene imágenes en escala de grises de 16 × 16, debe transformar esto en vectores de 256 valores y realizar PCA en esos datos.
En cuanto a los colores, aunque rara vez se usa, realmente no creo que sea un problema. Supongamos que tiene una matriz de píxeles de 16 × 16 que almacena cada uno tres valores (rojo, verde y azul). Para cada imagen que da 16x16x3 = 768 características. Puede ordenar las características de tal manera que en la primera columna habrá la intensidad del canal rojo en la primera fila de la primera columna, luego verde en el mismo lugar, luego azul, luego la segunda columna en el canal rojo de la primera fila, etc. se trata de representar los datos en un vector “plano” y no en una matriz multidimensional.
En cuanto al software, recomiendo scikit-learn: tiene un paquete para reconocimiento de imágenes y PCA.
- ¿Por qué los CNN son mejores en clasificación que los RNN?
- ¿Se usa el álgebra abstracta en el aprendizaje automático?
- ¿Por qué la deserción puede mejorar el problema de sobreajuste en redes neuronales profundas?
- ¿Por qué en cualquier máquina eléctrica la corriente aumenta cuando aumenta la carga de esa máquina?
- ¿Cómo deben normalizarse los datos de entrada al entrenar un SVM con un algoritmo en línea?