¿Qué es el análisis de componentes principales y cuántas variables se pueden usar para PCA?

El análisis de componentes principales (PCA) es una técnica multivariante utilizada para enfatizar la variación y resaltar patrones fuertes en un conjunto de datos. A menudo se usa para facilitar la exploración y visualización de datos. Fue inventado en 1901 por Karl Pearson.

Cuando se estudian muchas variables al mismo tiempo, para interpretar la información de una forma más significativa, es necesario reducir el número de variables a unas pocas combinaciones lineales de los datos. Cada combinación lineal corresponderá a un componente principal (PC). El número de PC es menor o igual que el menor número de variables originales o el número de observaciones.

Básicamente, el procedimiento utiliza una transformación ortogonal para convertir un conjunto de observaciones de variables posiblemente correlacionadas en un conjunto de valores de variables linealmente no correlacionadas o PC. Puede ser numéricamente intensivo y se hace mejor usando computadoras. Aquí hay un gran artículo que lo explica en detalle: Análisis de componentes principales explicado visualmente

En cuanto a la cantidad máxima de variables que se pueden usar, depende del software. En general, el número máximo de variables admitidas por la mayoría del software es 256.

Related Content

¿Dónde se pueden encontrar videos de Udacity Machine Learning Nanodegree gratis?

¿Cómo podemos usar el ingenuo clasificador de Bayes para el análisis del sentimiento sementico de los datos de Twitter?

¿Cuáles son las mejores bibliotecas de redes neuronales de Python y Java con soporte multi gpu y multiplataforma?

¿Qué es la inteligencia artificial? ¿Cuáles son los sujetos si queremos estudiar inteligencia artificial?

¿Por qué las tasas de aceptación de las conferencias de minería de datos son tan bajas y qué tipo de documentos se rechazan?

Estoy atrapado en la regresión. ¿Qué debo aprender después de esto?

¿Cómo se implementa Li-Fi?

Consulte Introducción al análisis de componentes principales aquí:
La respuesta de Siddharth Dixit a ¿Cuál es el significado intuitivo de una matriz de covarianza?

Siddharth Dixit

More Interesting

¿Cuál es el propósito del análisis de regresión?

¿Por qué la regresión logística se considera un modelo lineal?

¿Cuáles son los trabajos mejor pagados en el aprendizaje automático y qué habilidades requiere?

¿Cómo afectaría la homo / heteroscedasticidad al análisis de regresión?

En un modelo gráfico dirigido, el aprendizaje es fácil pero la inferencia es difícil. ¿Es esto cierto?

Cómo estructurar sus proyectos de aprendizaje automático

¿Qué es el aprendizaje automático?

¿Qué computadora portátil debo obtener para aprender el aprendizaje automático, usando SAS, R, MATLAB, Python, etc.?

¿Cuál es la diferencia entre segmentación y clasificación en el procesamiento de imágenes?

¿Vale la pena desarrollar un algoritmo de minería de datos más rápido que otros de código abierto y comerciales existentes? Si vale lo suficiente, ¿qué valor tiene ser el algoritmo más rápido?

¿Por qué las RVM no son tan populares como las SVM?

¿Cómo se usa el aprendizaje automático en DevOps?

¿Cómo aprenden los algoritmos de aprendizaje automático de los datos?

¿Se pueden utilizar bosques aleatorios para la selección de variables? De ser así, ¿cómo?

¿Cuáles son las ventajas y desventajas de usar Statsmodels sobre Scikit-learn?

Web Analytics