Hola,
Gracias por el A2A.
Déjame mostrarte la respuesta con el ejemplo. Imagine que tiene 1000 textos en total: 100 sobre deportes, 100 sobre dinero, etc.
- ¿Qué tan buenos son los conjuntos de datos SIG en India (por ejemplo, red de carreteras / calles, parcelas municipales, etc.)? ¿Cuáles son las fuentes para este tipo de conjuntos de datos?
- ¿Cuál es más importante de los tres, es decir, informática ubicua, informática distribuida y procesamiento de lenguaje natural, en el mundo de hoy?
- ¿Por qué las redes de confrontación generativas son tan creativas?
- ¿Qué debe saber un profesional de aprendizaje profundo para un hackathon?
- ¿Qué libros o recursos de probabilidad y estadística debo consultar antes de sumergirme en Machine Learning, PNL, minería de datos, etc.? Soy un completo principiante.
Lo más probable es que palabras como [“el”, “y” …] estarán en cada texto, por lo que no discriminan entre los diferentes tipos.
Lo más probable es que algo como “Meta” sea más probable en los deportes (eso es una suposición, también puedes alcanzar una meta en política o dinero). Pero algunas palabras serán definitivamente más propensas a estar en una categoría, y la otra no.
Bien, entonces, sabemos que la aparición de palabras será diferente en distintos tipos de textos.
Luego puedes hacer un pequeño truco y convertir cada documento en un vector. Puedes hacer 1000 dimensiones, y será así:
[how_many_times_does_money_occur, how_many_times_does_goal_occur …], para que pueda obtener un vector como [2, 1, 0, 9 …] para cada documento.
Ahora, es probable que documentos similares tengan vectores similares.
Bien, entonces, ahora a tu pregunta:
Tienes 1000 vectores, uno para cada documento. SI sabe qué vectores corresponden a qué etiqueta y decide utilizar esta información, puede crear un clasificador.
Un simple clasificador bayes ingenuo le dirá que la palabra “pelota”, por ejemplo, tiene más probabilidades de estar en los deportes, que, por ejemplo, una noticia de dinero.
Como usa información predefinida (la etiqueta), está haciendo una clasificación de texto. Clasifica los documentos en función de documentos similares que aprendió antes.
Eso se llama aprendizaje automático supervisado, a la que pertenece la clasificación de texto.
Al final, aprenderá características que difieren entre las diferentes etiquetas, y que son muy buenas para etiquetar nuevos ejemplos. Al final, puedes imaginar que creas una línea como esta:
Fuente: Google: SVM
Pero también puedes hacer algo diferente.
Puede tomar todos sus 1000 vectores y establecer un algoritmo de agrupación en él. Intentará encontrar regiones separadas de vectores, pero no necesariamente tienen que corresponder a ninguna distinción humana. En lugar de encontrar algo sobre la categoría de texto, encontrarán grupos que correspondan al sentimiento del texto (solo como un ejemplo).
En muchos algoritmos de agrupación, debe establecer el número de agrupaciones de antemano (K-significa, por ejemplo), por lo que obtendrá 2 agrupaciones en función de sus distribuciones en el espacio de 1000 dimensiones si dice que desea 2 agrupaciones.
Y así es como se ve.
Eso es algo llamado aprendizaje automático no supervisado, porque no le dice a su máquina que aprenda algo específico que desea que aprenda, sino solo para encontrar información por sí mismo. Realmente no tiene una forma de verificar o controlar, si lo que hace es útil.
En resumen, ambos enfoques pertenecen al aprendizaje automático.
Avísame si puedo ayudarte.
Saludos