Cómo hacer que una máquina entienda el texto del lenguaje natural a través de Python

Tú y yo no hablamos números. Hablamos un idioma El único que puedo hablar razonablemente bien es inglés.

Las máquinas hablan números. Entonces, el objetivo de la PNL es convertir el texto en números. Hacemos esto dividiendo las palabras en lo que se llaman tokens .

Aquí hay una oración.

Me encanta el bistec

Tokenicemos la oración.

“Yo” “Amor” “Filete”

Ahora asignamos un número a cada palabra.

Primero eliminamos las palabras de detención … las palabras que no tienen significado como “yo” y “y”.

Si hacemos eso en nuestra oración simbólica, nos quedan dos palabras:

amor y bistec

amor = 1

filete = 2

Ahora podemos implementar algo llamado modelo de bolsa de palabras. Parece que no funcionaría tan bien, pero en realidad es extremadamente preciso en el análisis de sentimientos.

Alimenta todos los números en el modelo y cuenta todas las palabras y produce un sentimiento basado en el número de veces que las palabras aparecen en un corpus. (cuerpo del texto)

Aquí hay un curso que tengo sobre los conceptos básicos de la tokenización. La primera parte en minería de texto. Nota: no es gratis. Son $ 12.

Una guía completa de NLTK en Python: Volumen 1

“Comprender” es un término cargado y ambiguo en el contexto de la PNL. ¿Cuáles son tus metas? ¿Cuál es tu fuente de contenido? ¿Está buscando una búsqueda, resumen, respuesta de preguntas, traducción u otra aplicación?

En un nivel simple, tome una copia de la biblioteca NLTK y observe las funciones disponibles para las tareas comunes de PNL. Si eso no ayuda, regrese y brinde detalles sobre sus necesidades.