¿Cómo se determinaría la relevancia de un artículo frente a algunas palabras clave?

OK, está describiendo el problema de recuperación clasificada, que es un problema clave en Recuperación de información.

La Introducción a la recuperación de información disponible gratuitamente por Manning, Raghavan y Schutze es una excelente introducción al campo.

Si bien podría implementar su propia implementación de las ideas en el libro,
Apache Lucene es un proyecto de código abierto bien conocido que implementa algoritmos de recuperación de información. Lucene in Action, Second Edition es otro gran libro de texto
que describe tanto la teoría IR como la implementación y uso de Lucene.

Sunspot es una biblioteca de Ruby para interactuar con Solr, uno de los motores de búsqueda creados con Lucene.
¡Libera a los clientes! Ruby, Python, PHP, Perl describe un cliente Ruby para Elasticserch, el otro servidor contendiente basado en Lucene.

Creo que esto es suficiente para que comiences.

Piense en utilizar la asignación de Dirichlet latente para encontrar un modelo probabilístico que describa las asociaciones suaves entre palabras, documentos y temas de esos documentos. Asignación de dirichlet latente

Los dos algoritmos que vienen a la mente son svm o knn. Depende de tu conjunto de entrenamiento.

Sugeriría mirar kaggle.com. En realidad, se está llevando a cabo un concurso para sugerir palabras etiquetadas del texto del artículo. Leer los grupos de discusión sería útil.

More Interesting

¿La máquina está aprendiendo la 'versión del hombre tonto' de intentar recrear la inteligencia?

¿Cómo se pueden entender intuitivamente las dimensiones de las entradas LSTM?

¿Es una red neuronal completamente conectada igual a una red neuronal de retroalimentación?

¿Cómo decidimos qué algoritmo usar en el aprendizaje automático?

¿Hay alguna trampa en los recientes anuncios de Microsoft e IBM sobre los avances en el reconocimiento de voz?

Dadas las variables / parámetros continuos, ¿cuál es la diferencia entre el aprendizaje automático y la interpolación?

¿Qué es una red neuronal bayesiana?

¿Cuál es la diferencia entre el aprendizaje de refuerzo profundo y el aprendizaje de refuerzo?

¿Cómo son útiles las redes neuronales convolucionales para las empresas e industrias normales?

¿Dónde puedo encontrar un código de Python para preprocesar el conjunto de datos?

¿Cuáles son algunos de los mejores cursos de ML para una maestría en India?

¿Amazon Web es una buena alternativa para que yo use redes neuronales si mi computadora no tiene suficiente energía?

¿Qué pasos de procesamiento previo recomendaría para un aprendizaje automático exitoso en un conjunto de datos MNIST?

¿Hay alguna manera de probar el límite de precisión teórica para clasificar un conjunto de datos en particular? O, ¿hay alguna forma de confirmar que la calidad de los datos es insuficiente para un problema?

En vista de los nuevos temas de TI (AI, IoT, datos grandes / rápidos, análisis, blockchain, etc.), ¿hay alguna ventaja en aprender la programación de Python?