¿Cuál es la diferencia entre extracción de información y recuperación de información?

Extracción de información: se trata más del problema de PNL (procesamiento del lenguaje natural) y aprendizaje automático. Donde entrena la máquina para extraer información oculta del texto sin formato. Considere un programa que pueda identificar todos los nombres de personas o ubicaciones del texto sin formato. Necesitamos construir un modelo y entrenar sobre la base de reglas y estadísticas lingüísticas. En resumen, es bastante difícil extraer información del texto. Al final de IE, obtendrá cierta información y luego acumulará conocimiento para responder algunas preguntas clave. por ejemplo, quiénes son las personas involucradas en la explosión de una bomba en Mumbai. Por lo tanto, debe extraer personas, ubicaciones, eventos y su relación para responder a esa pregunta. Entonces Google hace este tipo de extracción de información para responder preguntas que son información basada en hechos. Por ejemplo, ¿cuál es la moneda de la India? y en algún lugar está escrito INR es la moneda de la India.

Nos estamos moviendo lentamente hacia este tipo de motores de búsqueda donde obtendremos resultados con respuestas claras, en lugar de arrojar millones de resultados en nuestra cara.

Recuperación de información: en palabras simples, google. Un motor de búsqueda que tiene todos los datos almacenados y recuperará los resultados de su almacén de documentos y los clasificará según la consulta del usuario. Toda la inteligencia requerida aquí es un sistema para rastrear (recopilar) datos. Una forma eficiente de almacenar datos (por ejemplo, índices invertidos) y un sistema de clasificación inteligente para clasificar los resultados (por ejemplo, tfidf). Y además de eso, una gran granja de servidores para servir a millones de usuarios y recopilar sistemas en tiempo real de millones de sitios web / fuentes. Algunos sistemas IR Solr, Lucene, Elastic Search.


La caja cuadrada necesita extraer conocimiento y construir un gráfico de conocimiento y luego recuperarlo.


A2A, la recuperación de información es solo recopilar información de su fuente, como recuperar información de wikipedia o recuperar tweets de Twitter, solo acceder a los datos utilizando las API que hicieron para esto y descargar esta información para trabajar en ellos y usarlos.

para la extracción de información, no estoy seguro de si te refieres a la extracción de características o no, supondré que preguntas sobre la extracción de características.

La extracción de características es el proceso de analizar un dato o información para extraer sus características, propiedades, estadísticas y construir un análisis sobre él.

Para obtener una imagen completa, puede crear un proyecto que realice ambas tareas, imaginemos que desea analizar algunos comentarios de algunas páginas en Twitter y comprender si estos comentarios se consideran positivos o negativos, para obtener estadísticas de las revisiones y la satisfacción del cliente. .

Entonces, lo primero que debe hacer (recuperación de información) para recopilar estos comentarios.
luego, puede trabajar en la segunda tarea para (extracción de características), extrayendo de los datos que tiene la característica clave que nos ayuda a decidir si este comentario es positivo o negativo.

La extracción de información es el proceso de tomar algunos datos y extraer información estructurada de ellos a menudo para que pueda usarse para otro propósito, uno de los cuales puede estar en un sistema de recuperación de información (por ejemplo, un motor de búsqueda).

Por ejemplo, supongamos que desea crear un sistema que permita a las personas buscar una colección de carteles en formato jpg. Este sistema de búsqueda es un ejemplo de un sistema de recuperación de información. Su motor de búsqueda no sabrá qué hacer con los archivos jpg. Probablemente desee extraer alguna información de ellos para que las personas puedan buscarlos mediante consultas en lenguaje natural. Por ejemplo, si agrega el famoso póster de Lord Kitchener ( ) a su sistema de búsqueda, entonces sería útil si pudiera extraer el texto (los británicos que su país lo necesita) y tal vez incluso una descripción en lenguaje natural de algunos de los objetos en el póster (por ejemplo, Hombre señalando, bigote negro, sombrero) . Se puede diseñar un sistema de extracción de información para extraer dicha información. Esa información puede ser indexada por un motor de búsqueda para que sea más fácil encontrar carteles usando las palabras asociadas con ellos.

La recuperación de información generalmente se trata de encontrar un documento relevante para una tecnología de búsqueda, como una bolsa de palabras. Puede encontrar información sobre diferentes conceptos de recuperación de información aquí.

Linkapedia

La extracción de información es un proceso que crea información estructurada a partir de texto no estructurado. Puede encontrar conceptos de extracción de información aquí.

Linkapedia

El artefacto de Google que describe es probablemente una extracción de base de datos de una base de datos estructurada. Freebase u otras bases de datos RDF descritas aquí

Linkapedia

Para fines de divulgación, soy el fundador y CEO de linkapedia, un sistema de entrega de conocimiento que utiliza tanto la recuperación como la extracción de información.

More Interesting

¿Qué son las redes neuronales profundas?

En Data Science, ¿cuáles son algunos proyectos específicos de la industria del juego?

¿Qué puedo hacer con un conjunto de datos de temperatura?

Cómo hacer clustering de tipos de datos mixtos en Python

Cómo usar la función Master-Slave de PHPMyAdmin para replicar una base de datos en una máquina diferente

Si la tasa de predicción de un algoritmo de aprendizaje automático mantiene porcentajes bajos (50% a 60%) en un conjunto de datos, ¿cómo puedo mejorar?

Cómo aprender un pozo bayesiano no paramétrico

¿Cómo se conecta la regresión lineal a los filtros de Kalman?

Si planeo obtener un doctorado en aprendizaje de refuerzo teórico, ¿qué profesores y universidades debería considerar?

¿Qué es el aprendizaje automático y cuál es su futuro?

¿Dónde puedo ir para averiguar cómo extraer características de un documento de texto para usar en el entrenamiento de un clasificador?

¿Qué significa cuando obtengo buenos resultados de la medida F con un CV de 10 veces pero resultados pobres en los datos de la prueba, resultados similares si participo el conjunto de datos original en el conjunto de entrenamiento / validación? Obtengo buenos resultados en la validación pero malos resultados en el conjunto de pruebas.

¿Qué hace que una red neuronal convolucional sea excelente?

¿Cuál sería un ejemplo de una función simple no convexa?

¿Cuáles son algunos proyectos paralelos de Machine Learning que puedo implementar en mi tiempo libre?