¿Cuáles son los mejores algoritmos de agrupamiento para puntos de datos numéricos multidimensionales?

Parece un conjunto de datos bastante fácil para casi CUALQUIER algoritmo de agrupación, las columnas (características) son uniformes y puede normalizar el conjunto de datos muy fácilmente para tener en cuenta la cantidad de estudiantes en cada universidad.

Lo primero que debe intentar es, por supuesto, K-Means y apuesto a que funciona bastante bien en su conjunto de datos, puede hacer varias iteraciones para asegurarse de obtener el mejor resultado de diferentes inicializaciones aleatorias.

Existe la idea errónea de que K-Means no es muy bueno para datos altamente dimensionales debido a la maldición de dimensionalidad a menudo mal entendida, el punto fino es que sus datos no son aleatorios, por lo que no está trabajando realmente en 1000 dimensiones porque no todos los vectores de 1000 dimensiones realmente pueden ser un punto que tenga sentido en su conjunto de datos.

Si, por alguna razón, K-Means produce una salida incorrecta, puede probar otros algoritmos como agrupación espectral, DBScan, agrupación de cambio de medias, etc.

Luis

Related Content

¿Es necesario tener datos estacionarios para aplicar algún tipo de algoritmo de aprendizaje automático?

¿Cuáles son algunos avances en ciencias de la computación realizados por científicos mientras trabajaban en la industria?

¿Cuánto tiempo se necesita para leer Introducción a Algoritmos de TH Cormen, para un principiante?

¿Cómo funciona esta recursión?

¿Cuáles son las principales diferencias, con ejemplos, entre un algoritmo de aprendizaje profundo y un algoritmo de aprendizaje de refuerzo?

¿Cuáles son algunos sitios web increíbles que un estudiante de medicina debe visitar diariamente?

¿Cómo está negando este código todos los números en mi matriz?

Hay un número ilimitado de algoritmos de agrupación que se pueden usar para datos numéricos multidimensionales. Es posible que desee leer este hilo relacionado: la respuesta de Shehroz Khan a ¿Cuáles son los mejores algoritmos de agrupamiento utilizados en el aprendizaje automático?

Rahul Bohare

Probaría el agrupamiento espectral. Con cada conjunto de datos que lo he probado, supera el tradicional k-means, k-medoids, agrupación jerárquica, DBSCAN y algoritmo EM.

Rahul Bohare

More Interesting

¿Cómo se almacenan las imágenes en Ram como una matriz bidimensional de bytes que representan un píxel?

¿Cuáles son algunos de los códigos más pequeños que generan un número pseudoaleatorio?

¿En qué situaciones alguien usaría Dijkstra sin un montón sobre Dijkstra con un montón?

¿Cuál es el proceso de ejecución exacto de imprimir permutaciones de cadena de forma recursiva?

¿Cuál es la solución a este décimo problema polinómico de clase?

¿Cuál es la forma lógica de resolver el problema SPOJ 'Palin'?

¿Cuál es la mejor fuente disponible para aprender estructuras de datos y algoritmos para un principiante?

¿Cuál sería el mejor algoritmo para generar números aleatorios únicos para cupones de recarga?

¿Cuál es una buena estructura de datos para mapear una red de carreteras?

¿Cuál es la técnica de clasificación eficiente para organizar los libros en una biblioteca?

¿Cuáles son los 30 algoritmos más importantes que debe conocer para la programación competitiva?

¿Qué es la técnica Hashing?

¿Cómo funciona el algoritmo iPod shuffle?

¿Es posible encontrar la distancia del vértice más alejada del vértice inicial mediante la solución iterativa de DFS para un árbol (NO un gráfico genérico)?

En la industria, ¿con qué frecuencia se usa el algoritmo de compresión Lempel-Ziv-Welch?

Web Analytics