¿Qué es la recuperación de información? ¿Qué tan relacionado está con el análisis de datos y el aprendizaje automático?

Del libro de texto: la recuperación de información (IR) es encontrar material (generalmente documentos) de naturaleza no estructurada (generalmente texto) que satisface una necesidad de información dentro de grandes colecciones (generalmente almacenadas en computadoras).

Lo que aprendí del curso: los datos a los que nos referimos tienen mucho proceso (estandarización) que se debe realizar antes de que se consulte

Tallo – Corte del final de las palabras ejemplo exitoso, exitoso, el éxito puede ser cortado al éxito
Lematización : modificación de palabras a su forma básica en el diccionario
Hay pocos conceptos básicos involucrados en el análisis de texto: frecuencia de término (número de veces que aparece el término en el documento), frecuencia de documento (número de documentos que aparece el término), IDF (Frecuencia de documento inversa), frecuencia aumentada y frecuencia de registro
Básicamente, usted estudiaría otros ingenuos métodos de clasificación de documentos, capacitación y modelos de construcción para clasificar los documentos
Esto es solo una punta de iceberg en términos de curso de recuperación de información, un documento estructurado (por ejemplo, una tabla de base de datos se puede consultar con filtros, como filtros condicionales, es una forma directa)
Los cadáveres de documentos son enormes, el procesamiento y la clasificación en un formulario que se puede utilizar aún más en una gran infraestructura de tipos de datos o ejecutar modelos de aprendizaje automático se encuentra en una etapa de procesamiento
Documentos -> Oraciones -> Fichas -> Provisiones -> la frecuencia de término de construcción o el índice invertido de palabras son la base para el procesamiento

Este libro es una gran lectura: http://nlp.stanford.edu/IR-book/…

¿Cómo podemos usar la cadena de Monte Carlo Markov y bayesiano no paramétrico para la reducción de dimensionalidad?

¿Cómo podría el aprendizaje automático mejorar la nariz electrónica?

¿Cuáles son las mejores marcas de CPU y GPU para el aprendizaje automático?

¿Cómo se usa la pérdida de peso para la regularización en las redes neuronales?

¿Qué hace la capa en línea y la capa de línea cercana del sistema Netflix para recomendación?

¿Cuáles son algunas características de los datos de imágenes faciales que se pueden utilizar para alimentar los algoritmos de aprendizaje automático?

Doy respuesta para la recuperación de información y dónde se usa (la pregunta es demasiado vaga)

El sistema de recuperación de información es una red de algoritmos que facilitan la búsqueda de datos / documentos relevantes según los requisitos del usuario. Simplemente estamos extrayendo información y conocimiento de los datos.

Identifique piezas específicas de información (datos) en un documento textual no estructurado o semiestructurado.

Transforme la información no estructurada en un corpus de documentos o páginas web en una base de datos estructurada.

¿Dónde aplicamos IR?

-Artículos del periódico

-Páginas web

-Artículos científicos

–Mensajes de grupo de noticias

-Anuncios clasificados

–Notas médicas

El aprendizaje automático es un trasfondo para la recuperación de información. Hice un proyecto para identificar idiomas en el texto de las redes sociales usando aprendizaje automático / recuperación de información.

El libro de IR de Manning

Métodos de aprendizaje automático en la recuperación de información ad hoc

Recuperación de información y búsqueda web

Consulte los enlaces a continuación para ver cómo se implementa IR en PNL

Tarea compartida FIRE2015 sobre recuperación de información de script mixto

Foro para la evaluación de recuperación de información

Aprendizaje automático

Pathan Karimkhan

La recuperación de información es extraer patrones importantes, características, conocimiento de los datos.

Definición – “ hechos proporcionados o aprendidos sobre algo o alguien”

El análisis de datos necesita información importante para el procesamiento, la visualización. Los datos sin procesar no son útiles directamente, una vez que extrae información importante de ellos, eso puede brindarle una mejor visión.

Mire esta imagen, puede haber grandes datos detrás de la pantalla, y la imagen muestra métricas rentables para dar una mejor idea sobre el gran conjunto de datos.

Cuando se habla de aprendizaje automático , se requiere extracción de características para entrenar el sistema. Una vez que el sistema está entrenado con datos y sus características, este sistema entrenado puede usarse para predecir el comportamiento de datos de características similares. Este extracto de características también es un tipo de extracción de información solamente.

Supriya Srivatsa

More Interesting

¿Qué es el cambio de covariable?

¿Qué debo hacer para poder contribuir al campo de la visión por computadora y trabajar en Google en el futuro?

¿Debo abandonar mi programa de doctorado CS para estudiar por mi cuenta?

¿Cuál es la diferencia entre aplicar la descomposición del tren Tensor y agregar más capas a la red donde cada una tiene un tamaño reducido?

¿Cómo se usan las estadísticas en Machine Learning?

¿Se puede utilizar el aprendizaje automático para generar mapas de forma orgánica con solo usar datos de satélite de Google?

¿Hay algún ejemplo en la inferencia bayesiana de que, incluso con infinitos puntos de datos, el efecto de lo anterior no puede ser "eliminado"?

¿Hay alguna desventaja de usar GPU en el aprendizaje profundo?

¿Cómo es ser aconsejado por Sunita Sarawagi?

¿Cuál es la relación entre el análisis semántico latente / indexación, SVD y TF-IDF en la minería de texto?