Cómo numerar los clústeres en la agrupación jerárquica de documentos en Python

Para obtener el número de muestras de datos (aquí el número de películas) para cada grupo en cualquier técnica de agrupamiento (no solo en jerárquico), desea crear una nueva columna que sea un número de grupo en sus datos. Entonces solo usted puede ver las muestras correspondientes para cada grupo.

Por ejemplo,

Consideremos a continuación su tabla de datos que utilizó para predecir el número de clúster utilizando su modelo de clúster.

Después de la declaración de predicción,

clf.predict (X)

cada modelo tendrá los números de clúster etiquetados en labels_.

Puede acceder a eso usando clf.labels_

Después de estos pasos, debe agregar estas etiquetas a su tabla de datos.

data_table = clf.labels_

Ahora, su tabla de datos se ve así,

Desde esta tabla, puede acceder al número de películas para cada grupo.

No estoy realmente seguro de cuáles son los resultados de su salida final, pero sean cuales sean los tipos de datos, creo que podrían almacenarse como un encurtido.

Cualquier variable se puede volcar directamente en un archivo pickle y, cuando la vuelve a cargar en un código separado, puede usarla exactamente en el mismo estado en que la volcó.

Puede ver el siguiente enlace para referencia y comentarios si funcionó o si tuvo algún problema.

UsingPickle – Python Wiki