¿Cuáles son las diferencias entre los métodos de análisis de componentes principales?

El análisis de componentes principales ( PCA ) es un procedimiento estadístico que utiliza una transformación ortogonal para convertir un conjunto de observaciones de variables posiblemente correlacionadas en un conjunto de valores de variables no correlacionadas linealmente llamadas componentes principales . El número de componentes principales es menor o igual que el número de variables originales. Esta transformación se define de tal manera que el primer componente principal tiene la mayor varianza posible (es decir, representa la mayor variabilidad posible en los datos), y cada componente subsiguiente a su vez tiene la mayor varianza posible bajo la restricción que es ortogonal a los componentes anteriores. Los vectores resultantes son un conjunto de bases ortogonales no correlacionadas. La PCA es sensible a la escala relativa de las variables originales. La PCA se utiliza principalmente como una herramienta en el análisis exploratorio de datos y para hacer modelos predictivos. El PCA se puede hacer mediante la descomposición del valor propio de una matriz de covarianza de datos (o correlación) o la descomposición de valores singulares de una matriz de datos, generalmente después de centrar la media (y normalizar o usar puntuaciones Z) la matriz de datos para cada atributo.

[4]

Los resultados de un PCA generalmente se discuten en términos de puntajes de componentes, a veces llamados puntajes de factores (los valores de las variables transformadas correspondientes a un punto de datos en particular) y cargas (el peso por el cual cada variable original estandarizada debe multiplicarse para obtener el puntaje de componentes )

[5]

PCA es el más simple de los verdaderos análisis multivariados basados ​​en vectores propios. A menudo, se puede pensar que su funcionamiento revela la estructura interna de los datos de una manera que explica mejor la variación en los datos. Si un conjunto de datos multivariado se visualiza como un conjunto de coordenadas en un espacio de datos de alta dimensión (1 eje por variable), PCA puede proporcionar al usuario una imagen de menor dimensión, una proyección o “sombra” de este objeto cuando se ve desde su (en cierto sentido; ver más abajo) punto de vista más informativo. Esto se hace utilizando solo los primeros componentes principales para que se reduzca la dimensionalidad de los datos transformados.

PCA está estrechamente relacionado con el análisis factorial. El análisis factorial típicamente incorpora más supuestos específicos de dominio sobre la estructura subyacente y resuelve vectores propios de una matriz ligeramente diferente.

PCA también está relacionado con el análisis de correlación canónica (CCA). CCA define sistemas de coordenadas que describen de manera óptima la covarianza cruzada entre dos conjuntos de datos, mientras que PCA define un nuevo sistema de coordenadas ortogonales que describe de manera óptima la varianza en un solo

More Interesting

¿Cuál es el mejor marco de recomendación para mi primer sistema de recomendación?

¿Qué es el sesgo y la varianza?

¿Existe alguna implementación del modelo de atención en el flujo tensorial?

¿Cuál es la diferencia entre segmentación y clasificación en el procesamiento de imágenes?

¿Tiene sentido usar redes neuronales convolucionales en la identificación biométrica humana basada en ECG?

En Tensorflow: ¿qué tipo de red neuronal debo usar?

¿Qué es el aprendizaje por refuerzo?

Los algoritmos de ML escritos en Java funcionan bien para un conjunto de datos más pequeño. Para un conjunto de datos grande, ¿cómo podemos escalar estos algoritmos? ¿Necesitamos buscar algoritmos distribuidos / mapas distribuidos en memoria / NOSQL / archivos para leer y escribir grandes conjuntos de datos o hay alguna buena API?

¿Hay alguna empresa india que trabaje con IA y aprendizaje automático? En caso afirmativo, ¿en qué campo y en qué se diferencia de otros en ese campo?

¿Cuál es la diferencia entre 'Inferencia' y 'Estimación del modelo' en los documentos de LA?

¿Cuál es la diferencia entre una cadena de Markov recurrente y una cadena de Markov absorbente?

¿Cómo podría una máquina / sistema de IA identificar una oración sarcástica?

¿Cuáles son las diferencias, similitudes, pros, contras, aplicaciones y descripciones de Keras, TensorFlow, Theano?

¿Cómo puede ayudar una formación en procesamiento de señales en una carrera en ciencia de datos?

¿Cómo se comparan las bibliotecas de aprendizaje automático de C ++ con las disponibles en Python?