¿Qué se sabe sobre la eficiencia de la agrupación espectral en caso de que los datos no estén completamente conectados?

En el caso ideal, espera que sus datos no estén completamente conectados, es decir, le gustaría tener diferentes componentes conectados, uno para cada clúster.

En el caso real, esto generalmente no sucede: puede depender de muchos factores diferentes, por ejemplo, los datos en sí (piense en grupos superpuestos) o cómo define su gráfico de adyacencia (consulte, por ejemplo, la Figura 3 en [1]). El artículo “clásico” sobre el agrupamiento espectral de Andrew Ng et Al muestra diferentes ejemplos (ver Figura 1 en [2]): (a) por ejemplo tiene 8 componentes conectados, (d) tiene 4, mientras que (e) y (f) tener dos (incluso si ve que puede dividir un componente conectado libremente en dos, eso es todo magia de K-Means ;-)).

En lo que respecta a la eficiencia, desde mi experiencia, cuanto mejores grupos estén separados, más agrupamiento espectral se comportará de una manera predecible: el gráfico tendrá más de un componente conectado (idealmente K, el número de grupos en el conjunto de datos), el primero Los valores propios de K serán cero, y ejecutar K-Means en el espacio construido tomando los primeros vectores propios de K del gráfico Laplaciano le dará resultados bastante satisfactorios. Cuanto más cerca estén los grupos, más lejos estarán los valores propios de 0 (ver Figura 4 en [1]), los puntos más cercanos de los diferentes grupos estarán en el espacio propio, y será más difícil para K-Means encontrar “buenos “racimos.

Por cierto, si desea tener una mejor idea de cómo funciona la agrupación espectral, además de los documentos de referencia, le sugiero que consulte la siguiente demostración de agrupación espectral de Octave que construí para mis alumnos: Demostración de agrupación de octavas parte 3: agrupación espectral. La demostración viene con algunos conjuntos de datos simples con los que puede jugar, como cúmulos globulares bien desconectados, círculos concéntricos, etc. En otra demostración (demostración de agrupación de octavas parte 6: (más) evaluación), en su lugar, jugamos con el mismo algoritmo en un conjunto de datos real (un subconjunto de caras de Olivetti).

[1] http: //www.informatik.uni-hambur…
[2] http://ai.stanford.edu/~ang/pape…

Análisis de conglomeradosAprendizaje automáticoAprendizaje no supervisado