Su pregunta muestra su tarea: se prefiere Solr sobre ES donde la relevancia avanzada y el trabajo de IR están en juego. ES es un poco más productivo y está listo para instalarse y ejecutarse.
Sin embargo, tendrá que profundizar en Java para hacer esto, y más profundo de lo que yo he ido. Por lo tanto, mi respuesta puede no ser tan útil como esperabas. Lucene / Solr ahora admite BM25, y al observar las diferencias de código entre la puntuación TF-IDF y la puntuación BM25 determinará las clases a implementar para un nuevo algoritmo de puntuación. Cualquiera puede registrarse para obtener una cuenta en el sistema de seguimiento de errores JIRA para Apache Software Foundation. A partir de ahí, puede encontrar problemas para la puntuación BM25 y hacer un seguimiento de eso para codificar.
Además, si tiene algo de dinero para gastar en esto, puede inscribirse en un curso de desarrollador de LucidWorks en Solr / Lucene y profundizar.
- ¿Es CodeChef la opción correcta para practicar problemas algorítmicos hoy en día?
- ¿Cuáles son los algoritmos de optimización más simples y fundamentales?
- ¿Cómo encontraron los pilotos el camino más corto, cuando volaron a larga distancia en 1950?
- ¿Cuál es el libro de estructura de datos mejor y más fácil de entender para un estudiante promedio?
- Cómo calcular dos nodos distantes mínimos a partir de dos conjuntos de nodos en un gráfico
También le sugiero que siga una disciplina de ingeniería de software antes de comenzar a codificar:
- Compruébalo desde subversion
- Aprende a construirlo
- Aprende a construir el javadoc
- Asegúrese de saber cómo ejecutar el conjunto de pruebas
Ahora, estás listo para sumergirte y probarlo. Aquí hay un enlace muy antiguo a Javadoc:
org.apache.lucene.search (Lucene 2.9.4 API)
Y otro para la relevancia BM25:
BM25 La próxima generación de relevancia de Lucene
La wiki de confluencia, Guía de referencia de Apache Solr, se utiliza para crear una guía de usuario. Este tipo de trabajo, aunque la documentación está dispersa, es mejor ayudado por el antiguo wiki Moin-moin – FrontPage – Solr Wiki.