Tú y yo no hablamos números. Hablamos un idioma El único que puedo hablar razonablemente bien es inglés.
Las máquinas hablan números. Entonces, el objetivo de la PNL es convertir el texto en números. Hacemos esto dividiendo las palabras en lo que se llaman tokens .
Aquí hay una oración.
- Estoy muy interesado en el aprendizaje automático y quiero trabajar en algunos proyectos de código abierto. ¿Qué proyectos puedes sugerir?
- ¿Cómo se deriva la fórmula lagrangiana para resolver la máquina de vectores de soporte?
- ¿Por qué no reescalamos el vector de coeficiente de una regresión de lazo?
- Serie temporal: ¿Existe un enfoque para la detección de anomalías que no se base en datos de entrenamiento anteriores?
- ¿Cuáles son los mejores usos de Deep Learning para la clasificación de relevancia de búsqueda?
Me encanta el bistec
Tokenicemos la oración.
“Yo” “Amor” “Filete”
Ahora asignamos un número a cada palabra.
Primero eliminamos las palabras de detención … las palabras que no tienen significado como “yo” y “y”.
Si hacemos eso en nuestra oración simbólica, nos quedan dos palabras:
amor y bistec
amor = 1
filete = 2
Ahora podemos implementar algo llamado modelo de bolsa de palabras. Parece que no funcionaría tan bien, pero en realidad es extremadamente preciso en el análisis de sentimientos.
Alimenta todos los números en el modelo y cuenta todas las palabras y produce un sentimiento basado en el número de veces que las palabras aparecen en un corpus. (cuerpo del texto)
Aquí hay un curso que tengo sobre los conceptos básicos de la tokenización. La primera parte en minería de texto. Nota: no es gratis. Son $ 12.
Una guía completa de NLTK en Python: Volumen 1