Aunque la comparación de la PNL y la minería de texto no es correcta si se realiza de la misma manera, ya que no son lo mismo, están casi correlacionadas, tratan con el mismo tipo de datos sin procesar y tienen cierto cruce en sus usos. Analicemos los pasos a seguir, tome un sorbo para abordar ahora:
Textos Minería / PNL:
El procesamiento del lenguaje natural (PNL) se refiere a la interacción entre los lenguajes humanos naturales y los dispositivos informáticos. La PNL es un aspecto importante de la lingüística computacional, y también cae dentro de los ámbitos de la informática y la inteligencia artificial.
- ¿Cómo y qué tipo de datos ha recopilado por su cuenta para el proyecto / servicio ML?
- Redes neuronales artificiales: ¿Por qué las partes internas de las neuronas se simulan con una suma lineal de entradas en lugar de alternativas no lineales?
- ¿Los bosques aleatorios son solo un tipo de Monte Carlo?
- ¿Dónde entran en juego las funciones de activación en una red neuronal de convolución?
- ¿Cuántos datos se producen diariamente y cómo se obtuvo esa cifra?
La minería de texto existe en un ámbito similar al PNL, ya que se ocupa de identificar patrones interesantes y no triviales en los datos textuales.
Así que tómate un descanso y tenlo de manera simple:
Si el texto sin formato son datos , la minería de texto es información y PNL es conocimiento.
Ahora piense en lo que estamos buscando, por supuesto, el conocimiento aquí …!
Entonces, lo que necesitamos hacer con los datos para que conduzca a una mejor información, estos son:
- Tokenización: gran parte de texto en pequeño
- Normalización: convertir todo el texto al mismo caso (superior o inferior), eliminar la puntuación, expandir las contracciones, convertir números a sus equivalentes de palabras, etc.
- Stemming Stemming es el proceso de eliminación de afijos (sufijos, prefijos, infijos, circunfijos) de una palabra para obtener el origen de una palabra.
corriendo → correr
- Lematización: la lematización está relacionada con la derivación, que difiere en que la lematización es capaz de capturar formas canónicas basadas en una palabra.
- Cuerpo:
- Para las palabras
- Etiquetado de partes de voz (POS)
- Bolsa de palabras: la bolsa de palabras es un modelo de representación particular utilizado para simplificar el contenido de una selección de texto.
- Expresiones regulares: las expresiones regulares, a menudo abreviadas regexp o regexp , son un método probado y verdadero para describir concisamente patrones de texto.
- Medidas de similitud
Podemos decir que estos son los pasos principales de una tarea genérica basada en texto, que se encuentra en la minería de texto o PNL.
- Recolección de datos o ensamblaje
- Preprocesamiento de datos
- Exploración y visualización de datos
- Construcción del modelo
- Evaluación modelo
Espero que tengas lo que estás buscando o sigas siguiendo toda la información en los textos, solo trata de tener un mejor apetito.