Cómo manejar la agrupación supervisada en datos de Monte Carlo para entrenar un algoritmo para agrupar datos reales con patrones similares

Si conoces las etiquetas de clase, ¿por qué harías clustering? Si haces clustering, ¿cuál es el punto de conocer las etiquetas de clase? ¿Cuál es la garantía de que el algoritmo de agrupación X que funciona en estos datos simulados funcionará exactamente igual en los datos del mundo real? ¿Los datos reales también seguirían la misma distribución (y no similar) que la de los datos artificiales?

Creo que necesitas aclararte lo que quieres hacer? ¿Cuál es exactamente el problema que quieres resolver? ¿Entiendes lo que hacen DPGMM, VBGMM, GMM, aglomerativo, K-significa clustering ?, ¿en qué se diferencian? ¿Y qué tipo de estructuras de clúster forman? ¿Por qué no probaste otros enfoques de agrupamiento como el basado en densidad (DBSCAN), puede que no esté disponible en sci-kit? Antes de emplear cualquier enfoque, comience con uno simple y piense cuidadosamente por qué querría usarlo. Un enfoque complejo puede aumentar los gastos generales y puede no ser apropiado (navaja de afeitar de Occam).

A veces, hay algunos datos etiquetados disponibles y muchos datos no etiquetados, para esas situaciones los enfoques semi-supervisados ​​funcionan mejor (lea esta página de la encuesta en wisc.edu). Si todos sus datos no están etiquetados, entonces agrupa en grupo fuera de curso y para adivinar el número real de grupos, emplea algún índice de validez de grupo y hay muchos de ellos disponibles (lea esta página en sigmod.org). Comience con un algoritmo de agrupación simple, como K-means y vea cómo funciona. Además, es muy difícil anticipar que los números de clúster se mantendrán fijos a medida que lleguen nuevos datos, a menos que esté muy seguro de que la distribución de datos sigue siendo la misma y ha creado grupos en gran cantidad de datos. Si sus datos no etiquetados vienen en forma continua, usted emplea el agrupamiento en línea (lea la página de este capítulo en charuaggarwal.net). Por último, hay un documento de NIPS sobre agrupación supervisada (Lea aquí la página en stanford.edu), puede ser esto puede ayudarlo o esto es lo que está buscando.