¿Cuál es la diferencia entre la agrupación de texto y la clasificación de texto?

Hola,

Gracias por el A2A.

Déjame mostrarte la respuesta con el ejemplo. Imagine que tiene 1000 textos en total: 100 sobre deportes, 100 sobre dinero, etc.

¿Qué tan buenos son los conjuntos de datos SIG en India (por ejemplo, red de carreteras / calles, parcelas municipales, etc.)? ¿Cuáles son las fuentes para este tipo de conjuntos de datos?
¿Cuál es más importante de los tres, es decir, informática ubicua, informática distribuida y procesamiento de lenguaje natural, en el mundo de hoy?
¿Por qué las redes de confrontación generativas son tan creativas?
¿Qué debe saber un profesional de aprendizaje profundo para un hackathon?
¿Qué libros o recursos de probabilidad y estadística debo consultar antes de sumergirme en Machine Learning, PNL, minería de datos, etc.? Soy un completo principiante.

Lo más probable es que palabras como [“el”, “y” …] estarán en cada texto, por lo que no discriminan entre los diferentes tipos.

Lo más probable es que algo como “Meta” sea más probable en los deportes (eso es una suposición, también puedes alcanzar una meta en política o dinero). Pero algunas palabras serán definitivamente más propensas a estar en una categoría, y la otra no.

Bien, entonces, sabemos que la aparición de palabras será diferente en distintos tipos de textos.

Luego puedes hacer un pequeño truco y convertir cada documento en un vector. Puedes hacer 1000 dimensiones, y será así:

[how_many_times_does_money_occur, how_many_times_does_goal_occur …], para que pueda obtener un vector como [2, 1, 0, 9 …] para cada documento.

Ahora, es probable que documentos similares tengan vectores similares.

Bien, entonces, ahora a tu pregunta:

Tienes 1000 vectores, uno para cada documento. SI sabe qué vectores corresponden a qué etiqueta y decide utilizar esta información, puede crear un clasificador.

Un simple clasificador bayes ingenuo le dirá que la palabra “pelota”, por ejemplo, tiene más probabilidades de estar en los deportes, que, por ejemplo, una noticia de dinero.

Como usa información predefinida (la etiqueta), está haciendo una clasificación de texto. Clasifica los documentos en función de documentos similares que aprendió antes.
Eso se llama aprendizaje automático supervisado, a la que pertenece la clasificación de texto.

Al final, aprenderá características que difieren entre las diferentes etiquetas, y que son muy buenas para etiquetar nuevos ejemplos. Al final, puedes imaginar que creas una línea como esta:

Fuente: Google: SVM

Pero también puedes hacer algo diferente.

Puede tomar todos sus 1000 vectores y establecer un algoritmo de agrupación en él. Intentará encontrar regiones separadas de vectores, pero no necesariamente tienen que corresponder a ninguna distinción humana. En lugar de encontrar algo sobre la categoría de texto, encontrarán grupos que correspondan al sentimiento del texto (solo como un ejemplo).

En muchos algoritmos de agrupación, debe establecer el número de agrupaciones de antemano (K-significa, por ejemplo), por lo que obtendrá 2 agrupaciones en función de sus distribuciones en el espacio de 1000 dimensiones si dice que desea 2 agrupaciones.

Y así es como se ve.

Eso es algo llamado aprendizaje automático no supervisado, porque no le dice a su máquina que aprenda algo específico que desea que aprenda, sino solo para encontrar información por sí mismo. Realmente no tiene una forma de verificar o controlar, si lo que hace es útil.

En resumen, ambos enfoques pertenecen al aprendizaje automático.

Avísame si puedo ayudarte.

Saludos

Aprendizaje automáticoMensajes de texto

¿Cuál es la relación entre el aprendizaje automático y la minería de datos?

Cómo aplicar PCA para la reducción de dimensionalidad y SVM para agrupar y clasificar los patrones usando C ++ OpenCV

¿Qué nivel de experiencia en aprendizaje automático se espera de un científico de datos?

¿La mayoría de los algoritmos de aprendizaje automático se ejecutan en lotes, o se ejecutan cada vez que obtienen un nuevo bit de datos?

¿Qué lente tiene mejor calidad de imagen? Tamron 18-200 (con VC) vs Nikon 18-140 VR2?

¿Qué es mejor para la clasificación binaria, softmax bidireccional o regresión logística?

Otras respuestas proporcionan buena información sobre los métodos de agrupamiento; Agregaré algo un poco más simple. La agrupación es un mecanismo / técnica para identificar similitudes entre los elementos. La clasificación se refiere a procesos que asignan significado a elementos (etiquetas, anotaciones, temas, etc.). La agrupación se puede utilizar en la clasificación. Por ejemplo, adoptando un enfoque de aprendizaje supervisado, podríamos revisar un pequeño conjunto de documentos y clasificarlos como “receptivos” o “no receptivos”. Luego podríamos usar la agrupación para identificar otros elementos similares a los revisados. Luego clasificamos – asignamos significado: en función de qué clúster contiene los nuevos documentos: el clúster que contiene elementos “sensibles” etiquetados anteriormente o el que contiene los documentos “no sensibles” etiquetados previamente.

Nota: en la práctica, el proceso rara vez está limpio. Habrá valores atípicos y los elementos pueden no caer en grupos de similitud con cualquiera de los conjuntos etiquetados anteriormente (o puede haber superposición, particularmente entre los valores atípicos). Este puede ser un proceso iterativo y puede involucrar ajustes interactivos para agrupar parámetros a través de las iteraciones. La clasificación del texto rara vez es 100% precisa; el rango medio a alto del 90% es generalmente excelente, y a menudo significativamente mejor que la clasificación humana (o al menos “lo suficientemente bueno” para muchos propósitos y presupuestos).

En cuanto a dónde caen en los campos CS, no hay una respuesta única. La agrupación puede aplicarse a técnicas matemáticas en estadísticas que no tienen nada que ver con CS. Los algoritmos para implementar el agrupamiento pueden caer en la lingüística computacional, la biología computacional / informática de la biología, la visualización, el aprendizaje automático, la IA y una variedad de otras especialidades. Asimismo para la clasificación. Depende de la técnica específica y el objetivo de un proceso para ajustarlo en un dominio. Hay mucha superposición: un algoritmo para encontrar patrones en documentos de texto puede resultar útil en el análisis genético o la visualización del mercado financiero; Las técnicas se superponen y se comparten, ya que encajan entre muchos dominios empresariales y académicos.

Michael Staniek

Hola, perdón por el fallecido A2A

Como fue mencionado por Michael Staniek, es un problema de tarea supervisada / no supervisada.

La ramificación de CS es inexacta, pero la Clasificación cae dentro de la categoría ML (y más ampliamente AI). Dicho esto, la ramificación es muy inexacta ya que casi cualquier problema complejo de automatización de tareas puede verse como un problema de IA.

Michael Staniek

More Interesting

¿Cómo se puede imputar valores perdidos en SAS?

Hay muchas críticas positivas para Pytorch. Actualmente uso Keras y TensorFlow. ¿Recomienda hacer un cambio o apegarse a Tensorflow y dominarlo?

¿Los ingenieros de aprendizaje automático en Google tienden a publicar artículos?

¿Cuáles son las diferencias en las aplicaciones de filtrado colaborativo en los datos de calificación y en los datos de compra?

Después de la selección de características utilizando el método de rankeador, WEKA, el número de atributos en el conjunto de prueba es diferente del conjunto de entrenamiento. ¿Cómo los comparas?

¿Qué es más poderoso, la red neuronal convolucional o la red artificial? ¿Cuál es más conveniente de usar?

¿Cuál es la diferencia entre ML y NLP?

¿Qué es un conjunto de datos desequilibrado?

¿Cuáles son algunos excelentes boletines semanales de Data Science?

¿Los programas de software de aprendizaje automático toman riesgos?