¿Cuál es la diferencia entre agrupar sin PCA y agrupar con PCA?

Un PCA divide sus datos en factores ‘ortogonales’ jerárquicos ordenados, lo que lleva a un tipo de agrupaciones que (en contraste con los resultados de los análisis de agrupación típicos) no se correlacionan entre sí (pearson-). (Por cierto: normalmente se correlacionarán débilmente, si no está dispuesto a deconstruir sus datos de entrada de ‘moléculas’ (por ejemplo, oraciones) en sus ‘átomos’ (por ejemplo, palabras derivadas) por completo).

Después de haber logrado un PCA, aplicando un análisis de agrupamiento posterior dentro de uno o algunos de los bloques de datos resultantes que reflejan su estructura factorial encontrada,

sus datos de entrada tendrán menos, hasta una, (‘main-‘) dimensionalidad, lo que significa que la muestra de datos de entrada restante que se agrupará se volvió menos heterogénea (e idealmente: menos ruidosa)
por supuesto, dado que está trabajando solo con parte de los datos, el algoritmo de agrupación se ejecutará más rápido
y debido a que una agrupación posterior subdividirá sus datos (o simplemente ordenará en el caso de una sola dimensión), obtendrá resultados que son más fáciles de interpretar.

Related Content

¿Cuál es la mejor manera de distribuir el descenso de gradiente?

En Python, ¿cómo puedo probar y asegurarme de que mi modelo predice datos correctamente? (principiante preguntando)

¿Dónde puedo encontrar un conjunto de datos de texto traducido de cualquier idioma a otro válido para ser entrenado en un modelo de traducción automática en aprendizaje automático?

¿Es probable que Goldman Sachs sea el primero en alcanzar la singularidad?

¿Cuáles son algunos trabajos de investigación que puedo publicar en el campo del procesamiento / generación de lenguaje natural, aprendizaje automático y minería de datos?

¿Por qué la mayoría de las declaraciones de investigación de aprendizaje automático suenan a mierda?

¿Utiliza LHC herramientas de IA para crear y mejorar modelos físicos?

bueno, estoy tentado a decir que con un conjunto de datos reducido dimensionalmente (que es lo que básicamente hace la PCA), es probable que su algoritmo de agrupación k-means / cualquier clúster sea más rápido.

Clément Gamé

More Interesting

¿Cuáles son los avances más significativos del aprendizaje automático en 2017?

¿Puedo usar algoritmos y bibliotecas ML para empresas?

¿Cuál crees que es la razón detrás de la asociación de Microsoft y Amazon en la tecnología de red neuronal llamada 'Gluon'?

Soy un ingeniero electrónico que conoce algoritmos de aprendizaje automático, big data, estadísticas, SQL, Matlab. ¿Puedo ser contratado como ingeniero de IA de nivel básico?

¿Cuáles son algunas áreas de investigación en la intersección del aprendizaje automático y las criptomonedas?

¿Cómo cambiará la TPU de Google el mercado de CPU + GPU? ¿Cómo responderán los fabricantes de chips a este cambio?

¿A qué laboratorio puedo unirme en Caltech para hacer investigación de aprendizaje automático?

¿Cuál es el mejor enfoque e implementación para la detección y reconocimiento de objetos en la actualidad?

¿Qué métricas debo usar para evaluar un modelo generativo cuantitativamente y qué tan confiables son?

¿Es posible hacer una selección de características para las tareas de regresión por XGBoost?

MLconf 2015 Seattle: ¿Cómo funciona la técnica de aproximación simbólica agregada (SAX)?

¿Qué implementaciones de la capa convolucional utiliza la biblioteca CuDNN para optimizar el rendimiento de la velocidad? Por ejemplo, ¿cambia entre implementaciones dependiendo del tamaño del filtro?

¿La red neuronal convolucional es básicamente un procesamiento previo de datos a través del núcleo más las redes neuronales? ¿Acaso Deep Learning no es solo redes neuronales con preprocesamiento para las selecciones de funciones automatizadas?

¿Qué le gustaría en una aplicación de aprendizaje de idiomas?

¿Por qué las tasas de aceptación de las conferencias de minería de datos son tan bajas y qué tipo de documentos se rechazan?

Web Analytics