Parece un conjunto de datos bastante fácil para casi CUALQUIER algoritmo de agrupación, las columnas (características) son uniformes y puede normalizar el conjunto de datos muy fácilmente para tener en cuenta la cantidad de estudiantes en cada universidad.
Lo primero que debe intentar es, por supuesto, K-Means y apuesto a que funciona bastante bien en su conjunto de datos, puede hacer varias iteraciones para asegurarse de obtener el mejor resultado de diferentes inicializaciones aleatorias.
Existe la idea errónea de que K-Means no es muy bueno para datos altamente dimensionales debido a la maldición de dimensionalidad a menudo mal entendida, el punto fino es que sus datos no son aleatorios, por lo que no está trabajando realmente en 1000 dimensiones porque no todos los vectores de 1000 dimensiones realmente pueden ser un punto que tenga sentido en su conjunto de datos.
- ¿Cómo podemos demostrar que cada matriz 1D tiene un pico o que cualquier matriz 1D siempre tiene un pico?
- ¿Cómo termina una imagen en la página principal de reddit o imgur?
- ¿Alguien podría explicar la respuesta a este problema de mecánica?
- Dada una matriz con 1s y 0s, necesitamos crear una matriz tal que a [i] [j] = 1, si solo cada elemento en la fila i y columna j es 1, de lo contrario 0. Tenemos que usar un espacio constante y tener Una óptima complejidad temporal. ¿Cuáles son algunas posibles soluciones?
- ¿Qué es particionar en chispa, por qué lo necesitamos?
Si, por alguna razón, K-Means produce una salida incorrecta, puede probar otros algoritmos como agrupación espectral, DBScan, agrupación de cambio de medias, etc.
Luis