¿Qué es la indexación semántica latente?

La indexación semántica latente (LSI) es un método matemático utilizado para determinar la relación entre términos y conceptos en el contenido. Los contenidos de una página web son rastreados por un motor de búsqueda y las palabras y frases más comunes se cotejan e identifican como palabras clave para la página

Hay muchas formas de definir una palabra de contenido: aquí hay una receta para generar una lista de palabras de contenido a partir de una colección de documentos:

  1. Haga una lista completa de todas las palabras que aparecen en cualquier lugar de la colección.
  2. Deseche artículos, preposiciones y conjunciones.
  3. Descartar verbos comunes (saber, ver, hacer, ser)
  4. Descartar pronombres
  5. Deseche los adjetivos comunes (grande, tardío, alto)
  6. Deseche las palabras con volantes (por lo tanto, sin embargo, aunque, etc.)
  7. Deseche las palabras que aparecen en cada documento
  8. Descarte cualquier palabra que aparezca en un solo documento

Empresa de diseño de sitios web en Delhi

More Interesting

¿Pueden las redes neuronales resolver problemas de optimización?

¿Cuál es la diferencia entre la agrupación de texto y la clasificación de texto?

¿Qué documentos debo leer si quiero entender bien los métodos Bayesianos Variacionales?

¿Cómo funciona el sistema de recomendación de filtrado basado en contenido por word2vec usando etiquetas?

¿Cuál es el mejor tutorial de Python para el aprendizaje automático?

¿Cuáles son las similitudes y diferencias entre los campos aleatorios condicionales (CRF) y las redes de Markov de margen máximo (M3N)?

En general, ¿necesita tener un doctorado para obtener un trabajo de Machine Learning / Data Mining en una startup o en una gran empresa?

¿Por qué se usan capas completamente conectadas en el "extremo" [lado de salida] de las NN convolucionales? ¿Por qué no antes?

¿Por qué las redes convolucionales profundas llegaron tan tarde?

¿Cuál es el artículo o recurso web más informativo sobre el modelado similar?

¿Hay bases de datos de palabras clave abiertas?

Karpathy mencionó durante una conferencia que es posible reemplazar la capa FC al final de una CNN con una capa de agrupación promedio. ¿Alguien lo ha intentado?

¿Cómo funcionan las representaciones distribuidas de escasez fija defendidas e implementadas por Numenta?

¿Cuál es la posibilidad de que un humano gane el juego de entropía?

¿Cuáles son las diferencias entre los árboles de decisión, los métodos de agrupamiento y las redes neuronales?