Para obtener el número de muestras de datos (aquí el número de películas) para cada grupo en cualquier técnica de agrupamiento (no solo en jerárquico), desea crear una nueva columna que sea un número de grupo en sus datos. Entonces solo usted puede ver las muestras correspondientes para cada grupo.
Por ejemplo,
Consideremos a continuación su tabla de datos que utilizó para predecir el número de clúster utilizando su modelo de clúster.
- ¿Cómo se explica el algoritmo de propagación de creencias en las redes bayesianas?
- ¿Cuál es la diferencia entre los pronósticos de combinación y conjunto?
- ¿Por qué la similitud de un coseno menos es igual a la distancia del coseno?
- ¿Cuál es el tamaño mínimo de corpus para entrenar incrustaciones de palabras?
- ¿Cuáles son las mejores técnicas para crear vectores de oraciones para el procesamiento del lenguaje natural?
Después de la declaración de predicción,
clf.predict (X)
cada modelo tendrá los números de clúster etiquetados en labels_.
Puede acceder a eso usando clf.labels_
Después de estos pasos, debe agregar estas etiquetas a su tabla de datos.
data_table = clf.labels_
Ahora, su tabla de datos se ve así,
Desde esta tabla, puede acceder al número de películas para cada grupo.