¿Qué métodos (sin supervisión) deberían usarse para la categorización jerárquica automática de documentos?

El “agrupamiento jerárquico” hace exactamente lo que ha pedido. El final del análisis le dará un “dendograma” (una estructura en forma de árbol) que se parece a:

Enfoques que puede seguir:

  • AGNES (aglomerativo): primero considerará cada archivo como un clúster y luego los convergerá recursivamente hasta que haya un clúster.
  • DIANA (divisivo): considerará todos los archivos combinados como un gran clúster y luego los dividirá recursivamente hasta que cada archivo sea un clúster.

Tenga en cuenta que hay varios procesos que puede adoptar para cualquiera de estos enfoques, incluidos;

  • “enlace único” (considera la distancia mínima entre dos grupos durante cada fusión / división),
  • “enlace completo” (considera la distancia máxima durante cada fusión / división),
  • “basado en centroide” (considera la distancia entre centros durante cada fusión / división)
  • “error al cuadrado” (considera la distancia que se minimiza entre todos los elementos de los dos grupos durante cada fusión / división)
  • y muchos más.

Ventaja del clúster jerárquico para su tarea: es determinista. Por lo tanto, sea cual sea el proceso de enfoque que utilice, obtendrá el mismo resultado de manera consistente.

Desventaja de la agrupación jerárquica para su tarea: depende de usted elegir el enfoque y el proceso, teniendo en cuenta que cada una de las 8 combinaciones posibles de enfoque-proceso le dará resultados diferentes entre sí.