¿Cómo podemos “entrenar” sistemáticamente los algoritmos de agrupación sobre qué combinaciones de atributos / características generan en última instancia los tipos deseados de agrupaciones?

Según la definición, parece que tiene algún tipo de “función de actividad física oculta” para diferentes agrupaciones. Aquí no hay almuerzo gratis; si hay algún tipo de mecanismo de puntuación que esperas que produzca la agrupación, debes darle al algoritmo algún tipo de pista sobre lo que es. Aquí hay algunas alternativas:

Optimización automática de los pesos del clúster.
Genere diferentes agrupaciones a partir de diferentes pesos de atributos y califique manualmente las agrupaciones resultantes. Luego puede usar su algoritmo favorito de aprendizaje activo / descenso de gradiente / evolutivo para ajustar de forma iterativa los valores.

Emparejar algoritmos de corte mínimo basados ​​en gráficos + corte gráfico
¿Tiene algún tipo de noción acerca de qué instancias deberían o no estar en el mismo grupo, por ejemplo, si tomé una submuestra de 100 pares de puntos de datos, podría decirme “estos deberían estar en el mismo grupo y estos no deberían “. Si es así, puede crear un algoritmo de corte mínimo basado en gráficos que esté optimizado para estos emparejamientos.

Etiquetado de pares + transducción de máquina de vectores de soporte
Si hiciste el mismo etiquetado anterior y luego entrenaste una máquina de vectores de soporte transductivo (http://en.wikipedia.org/wiki/Tra…, entonces podrías usar los parámetros que aprendiste como pesos para el agrupamiento.