Preámbulo: esta respuesta es de lo que consideraría una prospectiva de minería de datos, es decir, voy a dejar de lado algunos detalles y hacer algunas generalizaciones y esperar perdón. Además, el lenguaje de las filas y columnas puede ser complicado, por lo que utilizaré “características” para indicar dimensiones / columnas / variables y “casos” para indicar observaciones / filas / registros.
Básicamente, tanto el análisis de conglomerados como el análisis de factores son tipos de aprendizaje no supervisado (no se requiere “y” / “etiqueta” / “clase” / “objetivo”) que pueden usarse para la segmentación o para la reducción de datos.
El análisis de conglomerados intenta agrupar casos: casos que son más similares entre sí que con otros tipos de casos. El análisis de factores intenta agrupar características. En el análisis factorial, las características generalmente se agrupan en combinaciones lineales.
- ¿El gradiente sintético eliminará la propagación hacia atrás?
- ¿Por qué no se prueba bien Theano en otros sistemas que no sean Linux?
- ¿Qué es mejor, el algoritmo de vecinos más cercanos a k (k-NN) o el clasificador de máquina de vectores de soporte (SVM)? ¿Qué algoritmo se usa principalmente en la práctica? ¿Qué algoritmo garantiza una detección confiable en situaciones impredecibles?
- ¿Dónde entran en juego las funciones de activación en una red neuronal de convolución?
- ¿Por qué necesitamos tasas de aprendizaje adaptativo para Deep Learning?
El análisis de conglomerados se puede utilizar para encontrar grupos más pequeños de casos que son representativos de un conjunto de datos en su conjunto. El análisis factorial se puede utilizar para encontrar un grupo más pequeño o una combinación de características que sean representativas de las características originales de un conjunto de datos.
Encontrar el número de grupos suele ser la parte más complicada de un análisis de grupo. Se pueden utilizar medidas como Silhouette, Beale’s F y Cubic Clustering Criterion, junto con la experiencia en el dominio para determinar la cantidad adecuada de clústeres. En general, los métodos de agrupamiento son aglomerativos o particionadores. Los métodos aglomerativos comienzan con cada caso en su propio grupo y los grupos se fusionan hasta que se alcanza un criterio de detención. Los métodos de partición comienzan con todos los casos en un grupo y dividen los casos en grupos nuevos hasta que se alcanza un criterio de detención. En mi experiencia, los métodos de agrupamiento más populares son los métodos de partición basados en la distancia relacionados con el algoritmo “k-means”. Las aplicaciones más específicas del análisis de agrupamiento, más allá de la segmentación / descubrimiento de patrones y la reducción de datos, pueden incluir: http://en.wikipedia.org/wiki/Clu….
Se cree que el análisis factorial determina una estructura subyacente, a veces desconocida o “latente”, en un conjunto de datos. Si bien existen procesos estadísticos específicos llamados “Análisis Factorial”, en mi experiencia, encontrar factores generalmente se ha reducido a algún tipo de descomposición o factorización de la matriz. Probablemente el más común sea el Análisis de componentes principales (PCA), pero también he usado la Descomposición de valores singulares (SVD), la Factorización de matriz no negativa (NMF) y el Análisis de factores comunes (CFA). Más allá de la segmentación general / descubrimiento de patrones y reducción de datos, el análisis factorial se usa ampliamente en marketing, genómica y ciencias sociales.