La indexación semántica latente (LSI) es un método matemático utilizado para determinar la relación entre términos y conceptos en el contenido. Los contenidos de una página web son rastreados por un motor de búsqueda y las palabras y frases más comunes se cotejan e identifican como palabras clave para la página
Hay muchas formas de definir una palabra de contenido: aquí hay una receta para generar una lista de palabras de contenido a partir de una colección de documentos:
- Haga una lista completa de todas las palabras que aparecen en cualquier lugar de la colección.
- Deseche artículos, preposiciones y conjunciones.
- Descartar verbos comunes (saber, ver, hacer, ser)
- Descartar pronombres
- Deseche los adjetivos comunes (grande, tardío, alto)
- Deseche las palabras con volantes (por lo tanto, sin embargo, aunque, etc.)
- Deseche las palabras que aparecen en cada documento
- Descarte cualquier palabra que aparezca en un solo documento
Empresa de diseño de sitios web en Delhi
- ¿Qué es el mecanizado en caliente?
- Cómo usar el codificador automático de Geoffrey Hinton para datos MNIST para clasificar dígitos
- ¿Cuáles son las ventajas de la maximización de la expectativa sobre el gradiente decente para ajustar un modelo de mezcla gaussiana?
- ¿Qué sucede cuando los conjuntos de datos de entrenamiento y los conjuntos de datos de prueba son los mismos en un proyecto de aprendizaje automático?
- ¿Cuál es la pérdida latente en autoencoders variacionales?