La pregunta es muy complicada y depende de los requisitos disponibles. No hay un enfoque general.
Una vez que se establece que la distancia euclidiana en algún espacio de características (ya sea las características originales en sí mismas o las características obtenidas como resultado de alguna transformación, que nuevamente debería conocerse) es la métrica para la agrupación, entonces hay algoritmos muy estándar que uno puede usar como k-significa o versiones más robustas de la misma que son menos sensibles a los valores atípicos.
Una vez más, para usar todo esto, es posible que se requiera algún conocimiento sobre el conjunto de datos, como el número de grupos para k-means (pero nuevamente hay métodos heurísticos para estimar esto también). Desde mi experiencia limitada, determinar qué métrica usar para la agrupación es la parte más difícil. Una vez que se establece, hay suficientes métodos para elegir dependiendo de los requisitos.
- ¿Por qué es importante para un programador tener un buen dominio de los conceptos matemáticos?
- ¿Cuál es un ejemplo de un operador XOR que utiliza conceptos del mundo real?
- ¿Cómo resolverías (2 ^ 2 ^ a mod b)?
- Hice un programa en C que nos da la tabla de distribución normal, pero debo hacer un archivo Excel desde C. ¿Cómo puedo hacer esto?
- ¿Las matemáticas son importantes para la piratería informática?
Pero creo que en base a la pregunta, un buen método sería la aplicación de la regresión del componente principal seguida de k-means . La PCR básicamente encuentra aquellas combinaciones de características (o coordenadas) que distinguen los diferentes grupos. Estos tienden a tener un rango muy bajo en comparación con el tamaño de la función original y ejecutar k-means en esto debería ser muy fácil. Una vez más, los mismos problemas asociados con los medios k como la convexidad de los grupos, etc. persistirían, en cuyo caso es posible que deba usar alguna transformación no lineal con algún núcleo.