¿Hay alguna diferencia entre el modelado de temas y el clúster?

Perdón por la demora en responder.

La respuesta corta es sí, son diferentes, aunque el modelado de temas utiliza técnicas similares con el análisis de conglomerados. También se pueden usar para la minería de datos.

Modelado de temas:

El modelado de temas utiliza la probabilidad presunta de que las palabras aparezcan en patrones específicos, en relación con algún tema. Requiere que la persona que realiza el modelado proporcione un léxico interpretativo de palabras que probablemente se usarán con ese tema, y ​​que observe la frecuencia con la que se usan esas palabras. Es probable que los tipos de actos comunicativos analizados en el modelado de temas contengan múltiples subtemas o temas principales, por lo que la frecuencia es útil para sopesar los temas descubiertos en función de la prevalencia.

El análisis generalmente se realiza utilizando la máxima probabilidad, a veces generada por técnicas como la descomposición de valores singulares. Debido a que la dirección del análisis es inductiva en el sentido de que uno pasa de la prevalencia de las palabras al tema y al significado, las técnicas de descomposición son muy útiles.

El artículo de Wikipedia sobre esto también menciona un algoritmo más nuevo, la factorización de matriz no negativa. (Ver: Factorización de matriz no negativa) No estoy familiarizado con él directamente, pero parece ser también una forma de descomposición, aunque con vectores continuos y no discretos. Me interesaría ver qué diferencia hay en la interpretación, así que buscaré documentos después de terminar esta respuesta.

El modelo se ajusta (presumiblemente) a los temas descubiertos y al léxico asociado con ese tema, y ​​el investigador concluye con base en los temas descubiertos, sus asociaciones, tipo de documento y otros factores relevantes.

Análisis de conglomerados:

El análisis de clúster utiliza las similitudes presuntivas entre un conjunto de objetos para crear agrupaciones dentro de ese conjunto. Estas agrupaciones (grupos) se indexan en función de una escala de similitud impuesta y se diferencian en función de algún límite impuesto.

La palabra impuesta aquí es general a propósito: el análisis de conglomerados es general, con lo que quiero decir que se puede hacer de varias maneras diferentes, usando una variedad de métodos diferentes. Lo clasificaría, en general, como una tarea principalmente deductiva, ya que el proceso de descubrir las escalas utilizadas para clasificar esos objetos impone un marco de reglas generales en situaciones específicas (en lugar de trabajar como lo hace el modelado de temas de lo específico a lo general) .

Sin embargo, no es una diferenciación clara, ya que el análisis de conglomerados requiere que la persona que realiza el análisis se mueva entre recopilar el conocimiento necesario para crear esas escalas (que puede ser iterativo, puede implicar consultar literatura, puede implicar hacer otro análisis primero o cualquier otro técnica que permite la creación de un conjunto de definiciones de trabajo para la clasificación).

Encontrar clústeres eficientes tampoco es un proceso simple en un conjunto de datos. Hay una superposición considerable entre las cosas en general, incluso si son un conjunto por definición (cualquier agrupación, no necesariamente ordenada o similar, etc.) Además, los conjuntos generalmente no se constituyen al azar, y como tal puede haber una superposición más que considerable. Por esta razón, los análisis de agrupamiento también son análisis de optimización, con todo el desorden que eso implica.

El tema de los modelos de clúster es enorme: un modelo de clúster se puede constituir a través de la conectividad gráfica, la distribución, la creación de un único vector medio, la agrupación de monitoreo nativa del conjunto o cualquier otra forma de lidiar con la maldición de la multidimensionalidad y el tema de particionamiento apropiado y / o jerarquía.

En cuanto a las técnicas, puede usar cualquier cosa que parezca apropiada para los datos y el problema. De hecho, podría usar el modelado de temas para crear grupos, dado que los datos están en forma de documentos y el problema es apropiado para usar los temas para describirlos.

Las diferencias:

Brevemente, uno es más general que el otro en el sentido de cómo se usa, en qué es apropiado usarlo, las técnicas utilizadas para hacerlo y el tipo de razonamiento utilizado para sacar conclusiones al respecto. La agrupación en clúster puede utilizar el modelado de temas, pero no es el modelado de temas, y el modelado de temas no es la agrupación. Sus restricciones son diferentes, sus estructuras son diferentes y sus similitudes superficiales (agrupando objetos de acuerdo con alguna escala) se derivan de manera diferente.

También vale la pena señalar (desde mi silla) que el tema central de la clasificación es muy diferente entre los dos, no solo es el modelado de temas más específico, en términos de parámetros de clasificación, sino que tiene más de lo que me gusta pensar como “construido” en ‘salvaguardas contra la generalización engañosa debido a los límites de la técnica.

El problema con (no es que no aprecie los modelos de clúster) moverse entre múltiples dimensiones analíticas es que requiere mucha más atención a los tipos de generalidades extraídas de esos movimientos. Si está realizando un análisis, siempre tendrá que prestar atención a las generalidades y los problemas para moverse entre los niveles de análisis: siempre perderá información al generalizar, y cuanto más generalice, más información perderá.

Cuando se mueve tanto como debe para realizar un análisis de conglomerados, las posibilidades de perder información potencialmente importante son mucho, MUCHO mayores, y es posible que tenga que usar y sopesar métodos y / o información potencialmente contradictorios. . Un gran ejemplo de esto es la paradoja de Simpson a menudo citada: si bien no necesariamente está agregando datos directamente, está agregando resultados para crear escalas. (Ver: la paradoja de Simpson) Los problemas de agregación resultantes son muy similares a los descritos: ¿cómo sopesan significativamente los resultados opuestos, en desacuerdo y / o contradictorios al crear una balanza?

Es muy probable que los diversos métodos que utilice no coincidan entre sí, y tendrá que averiguar qué es lo apropiado para concluir en esos casos. Hay mucho más espacio para desordenar. Si va a hacer un análisis de conglomerados, será mejor que esté familiarizado con los métodos asociados, incluidas las áreas en las que no pueden proporcionar información y las limitaciones sobre los tipos de información que proporcionan.

El modelado de temas es, en mi opinión, más “ficticio”.

¿Puedo agregar algunos centavos? Mis créditos incluyen hacer un análisis temprano de conglomerados (Factor luego conglomerado) para agrupar las características demográficas del censo en temas. Soy titular de una patente relacionada con una nueva tecnología llamada OCI: Orthogonal Corpus Indexing. Patente US7275061 – Sistemas y métodos para emplear un corpus ortogonal para indexación de documentos.

La tecnología OCI aprovecha la clasificación humana para automatizar los temas de mapeo a gran escala. Lo estamos haciendo ahora en un proyecto que se puede encontrar en Linkapedia Concept Search Engine. La mayoría de los asuntos espinosos que Carrie planteó sobre el uso de SVD o métodos similares a escala de millones de temas y OCI están abordando miles de millones de clústeres.

Utilizamos algoritmos de Machine Learning en frases PNL y triples RDF para construir el elemento web semántico, así como curvas ROC (positivas falsas positivas) para agrupar oraciones en temas.

Aquí hay una captura de pantalla que muestra categoriza oraciones extraídas de una sola fuente y luego las relaciona con temas.


Descargo de responsabilidad: soy el fundador y CEO de Linkapedia. Aquí está el problema que estamos tratando de resolver.

Estamos entrando en una nueva era en la que las aplicaciones móviles dominarán como una plataforma liderada por nuevos usuarios jóvenes que desean descubrir y explorar información en la web sin abandonar su aplicación. La búsqueda de palabras clave obliga a los usuarios de dispositivos móviles a abandonar la aplicación y, si no conoce el contexto o no tiene modelos mentales, estos usuarios no pueden realizar búsquedas detalladas.

Espero que los estudiantes y particularmente las niñas y mujeres vean en este ejemplo cómo un tema arcano a menudo puede abrir la puerta a soluciones que pueden tener un efecto muy grande.