¿Cuál es la diferencia entre agrupar sin PCA y agrupar con PCA?

Un PCA divide sus datos en factores ‘ortogonales’ jerárquicos ordenados, lo que lleva a un tipo de agrupaciones que (en contraste con los resultados de los análisis de agrupación típicos) no se correlacionan entre sí (pearson-). (Por cierto: normalmente se correlacionarán débilmente, si no está dispuesto a deconstruir sus datos de entrada de ‘moléculas’ (por ejemplo, oraciones) en sus ‘átomos’ (por ejemplo, palabras derivadas) por completo).

Después de haber logrado un PCA, aplicando un análisis de agrupamiento posterior dentro de uno o algunos de los bloques de datos resultantes que reflejan su estructura factorial encontrada,

  1. sus datos de entrada tendrán menos, hasta una, (‘main-‘) dimensionalidad, lo que significa que la muestra de datos de entrada restante que se agrupará se volvió menos heterogénea (e idealmente: menos ruidosa)
  2. por supuesto, dado que está trabajando solo con parte de los datos, el algoritmo de agrupación se ejecutará más rápido
  3. y debido a que una agrupación posterior subdividirá sus datos (o simplemente ordenará en el caso de una sola dimensión), obtendrá resultados que son más fáciles de interpretar.

bueno, estoy tentado a decir que con un conjunto de datos reducido dimensionalmente (que es lo que básicamente hace la PCA), es probable que su algoritmo de agrupación k-means / cualquier clúster sea más rápido.

More Interesting

¿Cuáles son los avances más significativos del aprendizaje automático en 2017?

¿Puedo usar algoritmos y bibliotecas ML para empresas?

¿Cuál crees que es la razón detrás de la asociación de Microsoft y Amazon en la tecnología de red neuronal llamada 'Gluon'?

Soy un ingeniero electrónico que conoce algoritmos de aprendizaje automático, big data, estadísticas, SQL, Matlab. ¿Puedo ser contratado como ingeniero de IA de nivel básico?

¿Cuáles son algunas áreas de investigación en la intersección del aprendizaje automático y las criptomonedas?

¿Cómo cambiará la TPU de Google el mercado de CPU + GPU? ¿Cómo responderán los fabricantes de chips a este cambio?

¿A qué laboratorio puedo unirme en Caltech para hacer investigación de aprendizaje automático?

¿Cuál es el mejor enfoque e implementación para la detección y reconocimiento de objetos en la actualidad?

¿Qué métricas debo usar para evaluar un modelo generativo cuantitativamente y qué tan confiables son?

¿Es posible hacer una selección de características para las tareas de regresión por XGBoost?

MLconf 2015 Seattle: ¿Cómo funciona la técnica de aproximación simbólica agregada (SAX)?

¿Qué implementaciones de la capa convolucional utiliza la biblioteca CuDNN para optimizar el rendimiento de la velocidad? Por ejemplo, ¿cambia entre implementaciones dependiendo del tamaño del filtro?

¿La red neuronal convolucional es básicamente un procesamiento previo de datos a través del núcleo más las redes neuronales? ¿Acaso Deep Learning no es solo redes neuronales con preprocesamiento para las selecciones de funciones automatizadas?

¿Qué le gustaría en una aplicación de aprendizaje de idiomas?

¿Por qué las tasas de aceptación de las conferencias de minería de datos son tan bajas y qué tipo de documentos se rechazan?