¿Qué es la indexación semántica latente?

La indexación semántica latente (LSI) es un método matemático utilizado para determinar la relación entre términos y conceptos en el contenido. Los contenidos de una página web son rastreados por un motor de búsqueda y las palabras y frases más comunes se cotejan e identifican como palabras clave para la página

Hay muchas formas de definir una palabra de contenido: aquí hay una receta para generar una lista de palabras de contenido a partir de una colección de documentos:

Haga una lista completa de todas las palabras que aparecen en cualquier lugar de la colección.
Deseche artículos, preposiciones y conjunciones.
Descartar verbos comunes (saber, ver, hacer, ser)
Descartar pronombres
Deseche los adjetivos comunes (grande, tardío, alto)
Deseche las palabras con volantes (por lo tanto, sin embargo, aunque, etc.)
Deseche las palabras que aparecen en cada documento
Descarte cualquier palabra que aparezca en un solo documento

Empresa de diseño de sitios web en Delhi

Aprendizaje automáticoMatemáticas y Aprendizaje automático

Related Content

¿Cuáles son algunas buenas aplicaciones o scripts que prueban muchas técnicas de aprendizaje automático a la vez para problemas de predicción?

Dado que los modelos pueden ser entrenados en datos sintéticos, ¿podemos usar el Entrenamiento Adversario para hacer que las imágenes de prueba sean más sintéticas?

¿Cuáles son algunos de los desafíos y oportunidades sobresalientes en el análisis predictivo con respecto a la privacidad y la propiedad de los datos, el análisis de los datos del usuario, el escalado de algoritmos y los ecosistemas e intercambios de datos emergentes?

¿Cuáles son los inconvenientes de usar RL con funciones de aproximación en altas dimensiones? ¿Cómo aprender la función de recompensa 0-1 (regresión logística)?

¿Cuáles son los últimos algoritmos y técnicas para la corrección ortográfica?

¿Cómo ayuda LSTM a prevenir el problema de gradiente de fuga (y explosión) en una red neuronal recurrente?

Cómo comenzar el estudio de Linux embebido

More Interesting

¿Pueden las redes neuronales resolver problemas de optimización?

¿Cuál es la diferencia entre la agrupación de texto y la clasificación de texto?

¿Qué documentos debo leer si quiero entender bien los métodos Bayesianos Variacionales?

¿Cómo funciona el sistema de recomendación de filtrado basado en contenido por word2vec usando etiquetas?

¿Cuál es el mejor tutorial de Python para el aprendizaje automático?

¿Cuáles son las similitudes y diferencias entre los campos aleatorios condicionales (CRF) y las redes de Markov de margen máximo (M3N)?

En general, ¿necesita tener un doctorado para obtener un trabajo de Machine Learning / Data Mining en una startup o en una gran empresa?

¿Por qué se usan capas completamente conectadas en el "extremo" [lado de salida] de las NN convolucionales? ¿Por qué no antes?

¿Por qué las redes convolucionales profundas llegaron tan tarde?

¿Cuál es el artículo o recurso web más informativo sobre el modelado similar?

¿Hay bases de datos de palabras clave abiertas?

Karpathy mencionó durante una conferencia que es posible reemplazar la capa FC al final de una CNN con una capa de agrupación promedio. ¿Alguien lo ha intentado?

¿Cómo funcionan las representaciones distribuidas de escasez fija defendidas e implementadas por Numenta?

¿Cuál es la posibilidad de que un humano gane el juego de entropía?

¿Cuáles son las diferencias entre los árboles de decisión, los métodos de agrupamiento y las redes neuronales?

Web Analytics