Los algoritmos / modelo siguen siendo los mismos en el conjunto de datos que utiliza.
No es que haya una nueva definición para Naive bayes o SVM.
Así que tomemos un ejemplo clásico de clasificación de documentos, para que tenga un conjunto de documentos y supongamos que para un subconjunto de estos tiene algunas etiquetas asignadas (por simplicidad supongamos que un documento puede asignarse exactamente a una etiqueta), tratará cada etiqueta como una clase.
Una manera simple de representar los documentos en un espacio vectorial es creando un vector para cada uno de los documentos. Primero comience con la creación de un vocabulario, cree un conjunto de todas las palabras que están presentes en al menos uno de los documentos. Use este conjunto de palabras como dimensiones distintas de un hiperespacio.
Ahora, para cada documento, calcule las frecuencias de las palabras en el vocabulario. Esto formaría el vector para el documento, esto se conoce como vector de frecuencia de término.
Ejemplo:
Documento 1: “eres estúpido porque haces una pregunta estúpida”
Documento 2: “estás equivocado porque ninguna pregunta es estúpida”
su diccionario / vocabulario será – {usted, es, estúpido, porque, preguntar, preguntar, incorrecto, no, es}
- ¿Debo aprender primero el aprendizaje profundo o de refuerzo? ¿Hay un orden natural? ¿Debería hacerse al mismo tiempo?
- Cómo implementar el aprendizaje sensible al costo en TensorFlow para penalizar la clasificación errónea en clases minoritarias (los datos tienen un problema de desequilibrio de clase)
- Sistemas de bases de datos: ¿Qué formatos de datos se utilizan para almacenar series de tiempo?
- ¿Cuál es la mejor máquina para la minería de criptomonedas?
- ¿Por qué el gradiente en el punto mínimo no es igual a 0?
entonces sus vectores de frecuencia de término son:
d1 = [2,1,2,1,1,1,0,0,0]
d2 = [1,1,1,1,0,1,1,1,1]
Es posible que desee comenzar a aplicar modelos directamente, pero una mejor manera sería eliminar algunas palabras que no transmiten mucha información sobre el documento, palabras como “es”, “el”, “usted”, “son”, pero nuevamente depende de qué resultados esperas de todo esto. También podría usar TFIDF tf – idf en lugar de solo el término frecuencias.
Incluso después de eliminar las palabras vacías, su conjunto de palabras sería grande y el conjunto de datos podría ser escaso, una mejor manera sería reducir las dimensiones, para eso puede ir con PCA (Análisis de componentes principales o) Indización semántica latente: lea la parte que habla sobre el manejo de la escasez. Una vez que haya terminado con esto, comience aplicando modelos.
Introducción a la recuperación de información