El punto básico de los n-gramos es que capturan la estructura del lenguaje desde el punto de vista estadístico, como qué letra o palabra es probable que siga al dado. Cuanto más largo sea el n-gramo, más contexto tendrá para trabajar y más recursos y potencia de cálculo necesitará para entrenar su modelo.
Los modelos de N-gram se utilizan principalmente en una variedad de tareas, como corrección ortográfica, división de palabras y resumen de texto. Otro uso de n-gramas es para desarrollar características para modelos supervisados de Aprendizaje Automático como SVM, Naive Bayes, etc.
Desde mi experiencia personal, el uso de bigrams y trigrams en su espacio de características no necesariamente produce una mejora significativa
- ¿Es más fácil construir un vehículo autónomo que un sistema de traducción automática a nivel humano?
- ¿Alguien ha probado el cableado cíclico de la red neuronal?
- ¿Qué le parece más interesante: el análisis de series temporales o el aprendizaje automático? ¿Por qué?
- ¿Cuáles son algunos ejemplos del mundo real de cómo y / o dónde se utilizan los algoritmos?
- ¿A quién o qué investigación de laboratorio en aprendizaje automático le parece más interesante?
Puede consultar mi documento sobre Amazon Review System y cómo un modelo Unigram proporcionó más del 90% de precisión.
Análisis de sentimiento de las características en la minería de revisión