¿Cuál sería la mejor manera de integrar el algoritmo de aprendizaje para clasificar en Solr?

Su pregunta muestra su tarea: se prefiere Solr sobre ES donde la relevancia avanzada y el trabajo de IR están en juego. ES es un poco más productivo y está listo para instalarse y ejecutarse.

Sin embargo, tendrá que profundizar en Java para hacer esto, y más profundo de lo que yo he ido. Por lo tanto, mi respuesta puede no ser tan útil como esperabas. Lucene / Solr ahora admite BM25, y al observar las diferencias de código entre la puntuación TF-IDF y la puntuación BM25 determinará las clases a implementar para un nuevo algoritmo de puntuación. Cualquiera puede registrarse para obtener una cuenta en el sistema de seguimiento de errores JIRA para Apache Software Foundation. A partir de ahí, puede encontrar problemas para la puntuación BM25 y hacer un seguimiento de eso para codificar.

Además, si tiene algo de dinero para gastar en esto, puede inscribirse en un curso de desarrollador de LucidWorks en Solr / Lucene y profundizar.

También le sugiero que siga una disciplina de ingeniería de software antes de comenzar a codificar:

  • Compruébalo desde subversion
  • Aprende a construirlo
  • Aprende a construir el javadoc
  • Asegúrese de saber cómo ejecutar el conjunto de pruebas

Ahora, estás listo para sumergirte y probarlo. Aquí hay un enlace muy antiguo a Javadoc:

org.apache.lucene.search (Lucene 2.9.4 API)

Y otro para la relevancia BM25:

BM25 La próxima generación de relevancia de Lucene

La wiki de confluencia, Guía de referencia de Apache Solr, se utiliza para crear una guía de usuario. Este tipo de trabajo, aunque la documentación está dispersa, es mejor ayudado por el antiguo wiki Moin-moin – FrontPage – Solr Wiki.

En general, es fácil manejar LTR fuera de SOLR. Usted toma los documentos N principales clasificados por SOLR y los pasa a su modelo LTR para volver a clasificar esos documentos.

Parece que la función LTR está integrada en SOLR a partir de la versión 6.4. Sin embargo, gran parte de la extracción / modelado de características aún debe realizarse fuera de línea y subirse a SOLR.

Refiera esto Aprender a clasificar

Aquí hay una estructura básica que solía hacerlo:

de Better Search: complemento de filtro de clic: una herramienta flexible para impr …

Para obtener más detalles, consulte las presentaciones vinculadas en {! Ctf}

Espero que esto ayude.