¿Cuál es la diferencia entre la agrupación de texto y la clasificación de texto?

Hola,

Gracias por el A2A.

Déjame mostrarte la respuesta con el ejemplo. Imagine que tiene 1000 textos en total: 100 sobre deportes, 100 sobre dinero, etc.

Lo más probable es que palabras como [“el”, “y” …] estarán en cada texto, por lo que no discriminan entre los diferentes tipos.

Lo más probable es que algo como “Meta” sea más probable en los deportes (eso es una suposición, también puedes alcanzar una meta en política o dinero). Pero algunas palabras serán definitivamente más propensas a estar en una categoría, y la otra no.

Bien, entonces, sabemos que la aparición de palabras será diferente en distintos tipos de textos.

Luego puedes hacer un pequeño truco y convertir cada documento en un vector. Puedes hacer 1000 dimensiones, y será así:

[how_many_times_does_money_occur, how_many_times_does_goal_occur …], para que pueda obtener un vector como [2, 1, 0, 9 …] para cada documento.

Ahora, es probable que documentos similares tengan vectores similares.

Bien, entonces, ahora a tu pregunta:

Tienes 1000 vectores, uno para cada documento. SI sabe qué vectores corresponden a qué etiqueta y decide utilizar esta información, puede crear un clasificador.

Un simple clasificador bayes ingenuo le dirá que la palabra “pelota”, por ejemplo, tiene más probabilidades de estar en los deportes, que, por ejemplo, una noticia de dinero.

Como usa información predefinida (la etiqueta), está haciendo una clasificación de texto. Clasifica los documentos en función de documentos similares que aprendió antes.
Eso se llama aprendizaje automático supervisado, a la que pertenece la clasificación de texto.

Al final, aprenderá características que difieren entre las diferentes etiquetas, y que son muy buenas para etiquetar nuevos ejemplos. Al final, puedes imaginar que creas una línea como esta:

Fuente: Google: SVM

Pero también puedes hacer algo diferente.

Puede tomar todos sus 1000 vectores y establecer un algoritmo de agrupación en él. Intentará encontrar regiones separadas de vectores, pero no necesariamente tienen que corresponder a ninguna distinción humana. En lugar de encontrar algo sobre la categoría de texto, encontrarán grupos que correspondan al sentimiento del texto (solo como un ejemplo).

En muchos algoritmos de agrupación, debe establecer el número de agrupaciones de antemano (K-significa, por ejemplo), por lo que obtendrá 2 agrupaciones en función de sus distribuciones en el espacio de 1000 dimensiones si dice que desea 2 agrupaciones.

Y así es como se ve.

Eso es algo llamado aprendizaje automático no supervisado, porque no le dice a su máquina que aprenda algo específico que desea que aprenda, sino solo para encontrar información por sí mismo. Realmente no tiene una forma de verificar o controlar, si lo que hace es útil.

En resumen, ambos enfoques pertenecen al aprendizaje automático.

Avísame si puedo ayudarte.

Saludos

Otras respuestas proporcionan buena información sobre los métodos de agrupamiento; Agregaré algo un poco más simple. La agrupación es un mecanismo / técnica para identificar similitudes entre los elementos. La clasificación se refiere a procesos que asignan significado a elementos (etiquetas, anotaciones, temas, etc.). La agrupación se puede utilizar en la clasificación. Por ejemplo, adoptando un enfoque de aprendizaje supervisado, podríamos revisar un pequeño conjunto de documentos y clasificarlos como “receptivos” o “no receptivos”. Luego podríamos usar la agrupación para identificar otros elementos similares a los revisados. Luego clasificamos – asignamos significado: en función de qué clúster contiene los nuevos documentos: el clúster que contiene elementos “sensibles” etiquetados anteriormente o el que contiene los documentos “no sensibles” etiquetados previamente.

Nota: en la práctica, el proceso rara vez está limpio. Habrá valores atípicos y los elementos pueden no caer en grupos de similitud con cualquiera de los conjuntos etiquetados anteriormente (o puede haber superposición, particularmente entre los valores atípicos). Este puede ser un proceso iterativo y puede involucrar ajustes interactivos para agrupar parámetros a través de las iteraciones. La clasificación del texto rara vez es 100% precisa; el rango medio a alto del 90% es generalmente excelente, y a menudo significativamente mejor que la clasificación humana (o al menos “lo suficientemente bueno” para muchos propósitos y presupuestos).

En cuanto a dónde caen en los campos CS, no hay una respuesta única. La agrupación puede aplicarse a técnicas matemáticas en estadísticas que no tienen nada que ver con CS. Los algoritmos para implementar el agrupamiento pueden caer en la lingüística computacional, la biología computacional / informática de la biología, la visualización, el aprendizaje automático, la IA y una variedad de otras especialidades. Asimismo para la clasificación. Depende de la técnica específica y el objetivo de un proceso para ajustarlo en un dominio. Hay mucha superposición: un algoritmo para encontrar patrones en documentos de texto puede resultar útil en el análisis genético o la visualización del mercado financiero; Las técnicas se superponen y se comparten, ya que encajan entre muchos dominios empresariales y académicos.

Hola, perdón por el fallecido A2A

Como fue mencionado por Michael Staniek, es un problema de tarea supervisada / no supervisada.

La ramificación de CS es inexacta, pero la Clasificación cae dentro de la categoría ML (y más ampliamente AI). Dicho esto, la ramificación es muy inexacta ya que casi cualquier problema complejo de automatización de tareas puede verse como un problema de IA.