La indexación, en otras palabras, se puede definir como una tarea que crea un tipo de inventario (directorio) de estructura de datos en la parte superior de los documentos (filas) que se proporcionan como una entrada al sistema de búsqueda (búsqueda elástica) que rastrea los términos presentes en cada documento y permite la búsqueda rápida. La forma de evitar escanear linealmente el contenido de texto para cada consulta es indexar los documentos por adelantado.
La búsqueda elástica (que se construye sobre Apache Lucene) crea un índice invertido sobre los textos proporcionados como registros de entrada. Para entender qué es el índice invertido, visite el siguiente enlace, ¿Qué es el índice invertido? Es un hecho bien conocido que necesita crear índices para implementar búsquedas eficientes. ¿Cuál es la diferencia entre el índice y el índice invertido, y cómo se construye el índice invertido?
otras referencias
https://nlp.stanford.edu/IR-book…
- ¿Cuáles son los patrones de diseño para proyectos de minería de datos / aprendizaje automático?
- ¿Cuáles son los preparativos iniciales para unirse a un programa de ciencia de datos para una nueva?
- ¿Cuáles son algunas buenas academias en línea como Jigsaw que proporcionan certificación para Big Data Analytics?
- ¿Cómo afecta la automatización al análisis de datos?
- ¿Cómo manejan los ingenieros los grandes datos de, por ejemplo, el monitoreo continuo de la salud?