¿Qué es la recuperación de información? ¿Qué tan relacionado está con el análisis de datos y el aprendizaje automático?

Del libro de texto: la recuperación de información (IR) es encontrar material (generalmente documentos) de naturaleza no estructurada (generalmente texto) que satisface una necesidad de información dentro de grandes colecciones (generalmente almacenadas en computadoras).

Lo que aprendí del curso: los datos a los que nos referimos tienen mucho proceso (estandarización) que se debe realizar antes de que se consulte

  • Tallo – Corte del final de las palabras ejemplo exitoso, exitoso, el éxito puede ser cortado al éxito
  • Lematización : modificación de palabras a su forma básica en el diccionario
  • Hay pocos conceptos básicos involucrados en el análisis de texto: frecuencia de término (número de veces que aparece el término en el documento), frecuencia de documento (número de documentos que aparece el término), IDF (Frecuencia de documento inversa), frecuencia aumentada y frecuencia de registro
  • Básicamente, usted estudiaría otros ingenuos métodos de clasificación de documentos, capacitación y modelos de construcción para clasificar los documentos
  • Esto es solo una punta de iceberg en términos de curso de recuperación de información, un documento estructurado (por ejemplo, una tabla de base de datos se puede consultar con filtros, como filtros condicionales, es una forma directa)
  • Los cadáveres de documentos son enormes, el procesamiento y la clasificación en un formulario que se puede utilizar aún más en una gran infraestructura de tipos de datos o ejecutar modelos de aprendizaje automático se encuentra en una etapa de procesamiento
  • Documentos -> Oraciones -> Fichas -> Provisiones -> la frecuencia de término de construcción o el índice invertido de palabras son la base para el procesamiento

Este libro es una gran lectura: http://nlp.stanford.edu/IR-book/…

Doy respuesta para la recuperación de información y dónde se usa (la pregunta es demasiado vaga)

El sistema de recuperación de información es una red de algoritmos que facilitan la búsqueda de datos / documentos relevantes según los requisitos del usuario. Simplemente estamos extrayendo información y conocimiento de los datos.

Identifique piezas específicas de información (datos) en un documento textual no estructurado o semiestructurado.

Transforme la información no estructurada en un corpus de documentos o páginas web en una base de datos estructurada.

¿Dónde aplicamos IR?

-Artículos del periódico

-Páginas web

-Artículos científicos

–Mensajes de grupo de noticias

-Anuncios clasificados

–Notas médicas

El aprendizaje automático es un trasfondo para la recuperación de información. Hice un proyecto para identificar idiomas en el texto de las redes sociales usando aprendizaje automático / recuperación de información.

El libro de IR de Manning

Métodos de aprendizaje automático en la recuperación de información ad hoc

Recuperación de información y búsqueda web

Consulte los enlaces a continuación para ver cómo se implementa IR en PNL

Tarea compartida FIRE2015 sobre recuperación de información de script mixto

Foro para la evaluación de recuperación de información

Aprendizaje automático

La recuperación de información es extraer patrones importantes, características, conocimiento de los datos.

Definición – “ hechos proporcionados o aprendidos sobre algo o alguien”

El análisis de datos necesita información importante para el procesamiento, la visualización. Los datos sin procesar no son útiles directamente, una vez que extrae información importante de ellos, eso puede brindarle una mejor visión.

Mire esta imagen, puede haber grandes datos detrás de la pantalla, y la imagen muestra métricas rentables para dar una mejor idea sobre el gran conjunto de datos.

Cuando se habla de aprendizaje automático , se requiere extracción de características para entrenar el sistema. Una vez que el sistema está entrenado con datos y sus características, este sistema entrenado puede usarse para predecir el comportamiento de datos de características similares. Este extracto de características también es un tipo de extracción de información solamente.