¿Cuál es la diferencia entre el análisis factorial y el análisis de conglomerados?

Preámbulo: esta respuesta es de lo que consideraría una prospectiva de minería de datos, es decir, voy a dejar de lado algunos detalles y hacer algunas generalizaciones y esperar perdón. Además, el lenguaje de las filas y columnas puede ser complicado, por lo que utilizaré “características” para indicar dimensiones / columnas / variables y “casos” para indicar observaciones / filas / registros.


Básicamente, tanto el análisis de conglomerados como el análisis de factores son tipos de aprendizaje no supervisado (no se requiere “y” / “etiqueta” / “clase” / “objetivo”) que pueden usarse para la segmentación o para la reducción de datos.

El análisis de conglomerados intenta agrupar casos: casos que son más similares entre sí que con otros tipos de casos. El análisis de factores intenta agrupar características. En el análisis factorial, las características generalmente se agrupan en combinaciones lineales.

El análisis de conglomerados se puede utilizar para encontrar grupos más pequeños de casos que son representativos de un conjunto de datos en su conjunto. El análisis factorial se puede utilizar para encontrar un grupo más pequeño o una combinación de características que sean representativas de las características originales de un conjunto de datos.

Encontrar el número de grupos suele ser la parte más complicada de un análisis de grupo. Se pueden utilizar medidas como Silhouette, Beale’s F y Cubic Clustering Criterion, junto con la experiencia en el dominio para determinar la cantidad adecuada de clústeres. En general, los métodos de agrupamiento son aglomerativos o particionadores. Los métodos aglomerativos comienzan con cada caso en su propio grupo y los grupos se fusionan hasta que se alcanza un criterio de detención. Los métodos de partición comienzan con todos los casos en un grupo y dividen los casos en grupos nuevos hasta que se alcanza un criterio de detención. En mi experiencia, los métodos de agrupamiento más populares son los métodos de partición basados ​​en la distancia relacionados con el algoritmo “k-means”. Las aplicaciones más específicas del análisis de agrupamiento, más allá de la segmentación / descubrimiento de patrones y la reducción de datos, pueden incluir: http://en.wikipedia.org/wiki/Clu….

Se cree que el análisis factorial determina una estructura subyacente, a veces desconocida o “latente”, en un conjunto de datos. Si bien existen procesos estadísticos específicos llamados “Análisis Factorial”, en mi experiencia, encontrar factores generalmente se ha reducido a algún tipo de descomposición o factorización de la matriz. Probablemente el más común sea el Análisis de componentes principales (PCA), pero también he usado la Descomposición de valores singulares (SVD), la Factorización de matriz no negativa (NMF) y el Análisis de factores comunes (CFA). Más allá de la segmentación general / descubrimiento de patrones y reducción de datos, el análisis factorial se usa ampliamente en marketing, genómica y ciencias sociales.

Respuesta corta: el análisis de conglomerados se trata de agrupar sujetos (por ejemplo, personas). El análisis factorial se trata de agrupar variables .

Respuesta algo más larga:
Supongamos que un grupo de personas responde un montón de preguntas sobre, digamos, política. Opiniones de varios políticos, ideas sobre temas, etc. Ignorando todos los detalles desordenados, un análisis de conglomerados trataría de identificar grupos de personas: los grupos pueden tener etiquetas como “conservador de la fiesta del té”, “libertario”, “liberal”, “ambientalista”. ” y así. Un análisis factorial trataría de llegar a medidas de variables latentes como “liberalidad”, “hawkishness”, etc.

La agrupación es preguntar en cuántos grupos deben dividirse los elementos que tiene. El análisis factorial pregunta si las características de los elementos que tiene se explican mejor como combinaciones de un conjunto más pequeño de características. No obtiene ninguna agrupación de un análisis factorial y no obtiene ninguna reducción de dimensionalidad al agrupar.

žAnálisis de factores: Agrupa variables similares en dimensiones. žSi las variables se correlacionan mucho, podrían medir aspectos de una dimensión subyacente común. Estas dimensiones se denominan factores.

Se utiliza principalmente para la reducción de datos, como la reducción de la longitud del cuestionario.

Por ejemplo, asiste a fiestas ruidosas; habla mucho parece cómodo interactuando con alguien; generalmente se ve con otros: todas estas variables podrían medir el concepto central o el factor de “salida”

Análisis de conglomerados: es una técnica que se utiliza para clasificar objetos o casos en grupos relativamente homogéneos llamados conglomerados.

Por ejemplo, “parejas jóvenes, familias jóvenes, familias mayores, prejubilados y jubilados” son grupos basados ​​en variables demográficas.

el análisis de conglomerados es agrupar casos / consumidores / audiencia en un conglomerado / grupo común, mientras que el análisis de factores es una reducción variable, es decir, reducir el número de variables / factores / características a un número menor.

More Interesting

¿Cómo aprende IBM Watson de los libros y documentos médicos?

¿Son las redes neuronales artificiales la única forma de establecer un aprendizaje profundo?

¿Cuáles son algunas de las estadísticas más importantes y más engañosas en la predicción de partidos de fútbol?

Cómo construir un conjunto de datos para el aprendizaje automático

¿Cuál es el papel de un neurocientífico en el desarrollo de inteligencia artificial?

Cuando uno usa la función de pérdida al cuadrado para la regresión, ¿significa que asume implícitamente que está agregando ruido gaussiano con la misma varianza?

¿Cómo funciona el sistema de clasificación de Aarne-Thompson?

¿Cuáles son las consecuencias y desventajas de usar datos agregados? ¿Cómo podemos combatirlos si no hay datos de nivel granular?

¿Cuáles son algunas aplicaciones del aprendizaje automático y la inteligencia artificial para los datos de detección remota basados ​​en el espacio y los SIG?

¿Cuáles son las diferencias entre hacer aprendizaje automático en la academia y en la industria?

¿Qué debo elegir, asociado de desarrollo de negocios en Think and Learn o analista de investigación en Edureka?

Cómo proceder si no puedo desempeñarme mejor en un conjunto de datos en particular cuando intento ajustar un modelo de aprendizaje automático

¿Cómo se introdujo por primera vez en Machine Learning / Data Science?

¿Cómo se puede aplicar el aprendizaje automático al póker?

Soy un graduado en ingeniería eléctrica. Quiero seguir estudios superiores en aprendizaje automático o inteligencia artificial en EE. UU. ¿Qué tengo que hacer?