Todos los métodos que menciona en su pregunta son algoritmos de aprendizaje no supervisados que pueden interpretarse como que realizan la estimación de máxima probabilidad (o en el caso de LDA, inferencia bayesiana) en un modelo generativo probabilístico.
Un modelo generativo probabilístico describe cómo se generaron aleatoriamente los datos observados, que generalmente involucran variables y parámetros ocultos que desea estimar o inferir.
La diferencia entre los métodos queda así mejor ilustrada por las diferencias en los modelos generativos a los que corresponden.
En términos del modelo generativo, el análisis de componentes principales y el análisis factorial difieren solo ligeramente. Ambos asumen el siguiente procedimiento generativo para su punto de datos dimensional D y
- primero un vector aleatorio x k-dimensional (k <D), no observado, se extrae de una distribución normal estándar. Así, los componentes de x son independientes e idénticamente distribuidos.
- Entonces x se multiplica por una matriz de peso constante D-por-k W para dar un vector D-dimensional Wx cuyas coordenadas aún son gaussianas, pero ahora pueden ser dependientes y no estándar.
- Sus datos observados y = Wx + m + e es una versión de Wx + m con ruido dañado donde e es ruido aleatorio, m es un vector medio constante. W ym son parámetros que aprendemos por máxima probabilidad o mediante el algoritmo EM. La diferencia entre PCA y FA está solo en la distribución supuesta del ruido e . En PCA probabilístico, los componentes de e son normales independientes e idénticamente distribuidos, es decir, tienen la misma varianza en todas las dimmensiones de y , mientras que FA permite el ruido de Gausian cuya varianza es diferente para cada dimensión.
Desde una perspectiva práctica, la principal diferencia entre los modelos PCA y FA son las propiedades de invariancia: PCA es invariante en rotación, es decir, si gira sus datos alrededor de su media, los factores rotan con sus datos. FA es invariante de escala, es decir, si escala sus datos alrededor de su media, los factores y las variaciones de ruido dependientes de la dimensión se escalan con él. Por lo tanto, FA es un mejor modelo si sus diferentes coordenadas pueden tener diferentes unidades, o se escalan arbitrariamente.
- ¿Cuál es el método más popular para clasificar los temas de los artículos de noticias?
- ¿Puedo ser un ingeniero de aprendizaje automático con habilidades en desarrollo web y móvil?
- Cómo identificar la ubicación de cualquier mensaje de texto usando ML o NLP
- ¿Cuál es la diferencia entre la red neuronal y la regresión logística?
- ¿Qué matemáticas se necesitan para este curso de aprendizaje automático?
Grandes documentos sobre las diferencias y la relación entre PCA y FA son:
PCA probabilística http://www.robots.ox.ac.uk/~cvrg…
Revisión unificadora http://mlg.eng.cam.ac.uk/zoubin/…
Aprendizaje no supervisado http://mlg.eng.cam.ac.uk/zoubin/…
La asignación de Dirichlet latente es mucho más complicada que PCA o FA. La mejor manera de entender las diferencias es leyendo el documento original de David Blei et al, que explica el procedimiento generativo:
http://www.cs.princeton.edu/~ble…
O mire el tema Asignación de Dirichlet latente en Quora.