¿Cuál es la diferencia entre el análisis factorial y las técnicas de selección de características, como el análisis de componentes principales y la asignación de dirichlet latente?

Todos los métodos que menciona en su pregunta son algoritmos de aprendizaje no supervisados ​​que pueden interpretarse como que realizan la estimación de máxima probabilidad (o en el caso de LDA, inferencia bayesiana) en un modelo generativo probabilístico.
Un modelo generativo probabilístico describe cómo se generaron aleatoriamente los datos observados, que generalmente involucran variables y parámetros ocultos que desea estimar o inferir.
La diferencia entre los métodos queda así mejor ilustrada por las diferencias en los modelos generativos a los que corresponden.

En términos del modelo generativo, el análisis de componentes principales y el análisis factorial difieren solo ligeramente. Ambos asumen el siguiente procedimiento generativo para su punto de datos dimensional D y

  1. primero un vector aleatorio x k-dimensional (k <D), no observado, se extrae de una distribución normal estándar. Así, los componentes de x son independientes e idénticamente distribuidos.
  2. Entonces x se multiplica por una matriz de peso constante D-por-k W para dar un vector D-dimensional Wx cuyas coordenadas aún son gaussianas, pero ahora pueden ser dependientes y no estándar.
  3. Sus datos observados y = Wx + m + e es una versión de Wx + m con ruido dañado donde e es ruido aleatorio, m es un vector medio constante. W ym son parámetros que aprendemos por máxima probabilidad o mediante el algoritmo EM. La diferencia entre PCA y FA está solo en la distribución supuesta del ruido e . En PCA probabilístico, los componentes de e son normales independientes e idénticamente distribuidos, es decir, tienen la misma varianza en todas las dimmensiones de y , mientras que FA permite el ruido de Gausian cuya varianza es diferente para cada dimensión.

Desde una perspectiva práctica, la principal diferencia entre los modelos PCA y FA son las propiedades de invariancia: PCA es invariante en rotación, es decir, si gira sus datos alrededor de su media, los factores rotan con sus datos. FA es invariante de escala, es decir, si escala sus datos alrededor de su media, los factores y las variaciones de ruido dependientes de la dimensión se escalan con él. Por lo tanto, FA es un mejor modelo si sus diferentes coordenadas pueden tener diferentes unidades, o se escalan arbitrariamente.

Grandes documentos sobre las diferencias y la relación entre PCA y FA son:
PCA probabilística http://www.robots.ox.ac.uk/~cvrg…
Revisión unificadora http://mlg.eng.cam.ac.uk/zoubin/…
Aprendizaje no supervisado http://mlg.eng.cam.ac.uk/zoubin/…

La asignación de Dirichlet latente es mucho más complicada que PCA o FA. La mejor manera de entender las diferencias es leyendo el documento original de David Blei et al, que explica el procedimiento generativo:
http://www.cs.princeton.edu/~ble…
O mire el tema Asignación de Dirichlet latente en Quora.

More Interesting

¿Cuáles son los tres problemas principales en el pronóstico de energía eólica y solar que requieren atención urgente utilizando algoritmos de aprendizaje automático?

¿Cuál sería un buen proyecto de PNL?

¿Cuál es el tamaño mínimo de corpus para entrenar incrustaciones de palabras?

Cómo usar la red neuronal convolucional en sus proyectos

¿Existe alguna directriz para diseñar redes neuronales en términos de número de capas ocultas, número de unidades ocultas, tamaño de filtro (CNN) y paso de tiempo (RNN)?

Si enseñamos a un programa de aprendizaje automático cómo hacer operaciones aritméticas, ¿sería más rápido o más lento que los humanos?

¿Qué es un giroscopio? ¿Como funciona?

En el aprendizaje de características, ¿cuál es la regla general para decidir el número de parches aleatorios y el número de iteraciones / épocas con respecto al número deseado de nodos / longitud de la característica?

¿Cuál es la mejor red neuronal o SVM para la clasificación de texto de etiquetas múltiples?

¿Cuál es la forma más fácil de entender el análisis de componentes principales?

¿Cómo funciona Delta TF-IDF?

¿Cuáles son los documentos que debería leer sobre los sistemas de recomendación basados ​​en el aprendizaje profundo?

¿Qué son el aprendizaje profundo y el aprendizaje automático, sus diferencias, similitudes, relaciones y una línea de tiempo de su historia de invención?

¿Dónde está el mejor lugar para trabajar en investigaciones de IA?

¿Cuál es el estado del arte en la síntesis de texto?