¿Cuáles son los mejores algoritmos de agrupamiento para puntos de datos numéricos multidimensionales?

Parece un conjunto de datos bastante fácil para casi CUALQUIER algoritmo de agrupación, las columnas (características) son uniformes y puede normalizar el conjunto de datos muy fácilmente para tener en cuenta la cantidad de estudiantes en cada universidad.

Lo primero que debe intentar es, por supuesto, K-Means y apuesto a que funciona bastante bien en su conjunto de datos, puede hacer varias iteraciones para asegurarse de obtener el mejor resultado de diferentes inicializaciones aleatorias.

Existe la idea errónea de que K-Means no es muy bueno para datos altamente dimensionales debido a la maldición de dimensionalidad a menudo mal entendida, el punto fino es que sus datos no son aleatorios, por lo que no está trabajando realmente en 1000 dimensiones porque no todos los vectores de 1000 dimensiones realmente pueden ser un punto que tenga sentido en su conjunto de datos.

Si, por alguna razón, K-Means produce una salida incorrecta, puede probar otros algoritmos como agrupación espectral, DBScan, agrupación de cambio de medias, etc.

Luis

Hay un número ilimitado de algoritmos de agrupación que se pueden usar para datos numéricos multidimensionales. Es posible que desee leer este hilo relacionado: la respuesta de Shehroz Khan a ¿Cuáles son los mejores algoritmos de agrupamiento utilizados en el aprendizaje automático?

Probaría el agrupamiento espectral. Con cada conjunto de datos que lo he probado, supera el tradicional k-means, k-medoids, agrupación jerárquica, DBSCAN y algoritmo EM.