En estos días se realizan muchos análisis de texto, y la extracción de términos o palabras es un caso de uso bastante común. No mencionaré los detalles técnicos, ya que varían según el idioma, el marco o la tecnología que utilice. Sin embargo, el enfoque general implica los siguientes pasos:
- Identificación del texto que debe extraerse y creación de un corpus.
- Programar y procesar las palabras en el corpus, para comprender las palabras raíz (después de eliminar varios sufijos, detener palabras, etc.)
- Desarrollar o utilizar medidas estadísticas descriptivas de los términos derivados en el corpus
- Un siguiente paso opcional puede ser el análisis para encontrar sentimientos u otras características clave en el conjunto de datos.
En general, el paso 3 nos permite producir histogramas de frecuencia de término, o nubes de palabras, que pueden convertirse en visualizaciones efectivas que transmiten el contenido presente en un conjunto de datos de texto o corpus.
Encontrará variaciones en los mismos pasos básicos, cuando busque análisis de texto en marcos como NLTK (Python) o tm (R).
- ¿En qué se diferencia el estado oculto (h) de la memoria (c) en una celda LSTM?
- ¿Cuál es la intuición detrás de llamar variables ortogonales como independientes? Proporcione una respuesta en el contexto del aprendizaje automático.
- Cómo usar el aprendizaje automático en IoT Hardware Security
- ¿Cuál es el análisis de opinión en el caso de TripAdvisor? ¿Como funciona?
- ¿Cuándo debo usar la agrupación antes de ejecutar un modelo de regresión logística?