¿Cuál es la forma más fácil de crear un motor de búsqueda eficiente?

Una de las formas más simples de crear un SE es usar un servicio alojado. Algunas opciones son:

  • Búsqueda personalizada de Google: si tiene la intención de buscar en páginas web y está de acuerdo con su nivel de cobertura sobre su contenido. Esta opción también limita su capacidad de definir cuáles son los resultados relevantes y se le deja a la opinión de Google que puede estar o no sincronizada con su intención. (aquí también obtienes anuncios de google y creo que obtienes un recorte en las ganancias). Esta es probablemente la forma más fácil y rápida de hacerlo. http://www.google.com/cse/
  • IndexTank: la búsqueda como servicio, tiene una API simple y debe encargarse de indexar sus propios datos. Puede indexar sus propios objetos en lugar de solo páginas web y presentar los resultados de la manera que desee. Es gratis hasta 100K documentos sin ningún anuncio. Es en tiempo real y le brinda mucha flexibilidad para definir su relevancia con considerable facilidad. Tiene muchas más funciones, como Facetado y Geolocalización. (Descargo de responsabilidad: trabajo en IndexTank). Requiere más esfuerzo que GCS, pero sigue siendo lo suficientemente simple y le brinda una flexibilidad mucho mayor. http://indextank.com/
  • WebSolr: similar en concepto a IndexTank, son básicamente instancias de Solr en la nube, tiene características similares, excepto para la búsqueda en tiempo real. No tiene planes gratuitos. En mi opinión, requiere más esfuerzo de configuración y mantenimiento que IndexTank, aunque tiene la ventaja de que puede migrar más fácilmente a una solución interna más adelante. http://websolr.com/

También puede configurar cualquiera de las soluciones de código abierto y administrarla usted mismo. Algunas opciones son Solr, Sphinx y ElasticSearch. Aunque esto requiere mucho más esfuerzo, especialmente a medida que sus necesidades comienzan a crecer.

EDITAR: Acabo de notar los comentarios en los que tomas a Quora como el cuerpo objetivo. IndexTank está diseñado para casos de uso como Quora, lo que permite actualizar rápidamente las variables relacionadas con la relevancia. También proporciona clientes javascript para búsqueda rápida ajax, resultados instantáneos (a-la Google) y enlaces instantáneos (a-la Quora)

SearchBlox ( http://www.searchblox.com/ ) es otra opción para un motor de búsqueda. Está basado en Lucene y es gratis.

More Interesting

Aprendizaje automático: ¿cómo puedo comparar entre clasificadores?

Cómo hacer un buen proyecto de ciencias de la computación para el último año que sea tan bueno como los proyectos en la universidad de primer nivel

Cómo recuperar archivos después de una recuperación del sistema de Windows

¿Cuáles son las tres ideas principales en arquitectura de computadoras desde la invención de la computadora?

¿Puedo usar más mapeadores y reductores simultáneamente en un programa MapReduce usando el concepto de subprocesamiento de Java? Si es así, ¿cómo? Si no, ¿por qué?

¿Qué son los personajes de escape?

¿Cuál es la mejor fuente de ejemplos exitosos de productos de arquitectura de la vida real, por ejemplo, definiciones de sistemas, diagramas UML, procesos de negocios?

¿Por qué los colores en mis impresiones difieren de los colores en mi pantalla y cómo puedo hacerlos iguales?

¿Cómo es que los piratas informáticos 'olfatean' los datos personales del tráfico de Internet en una conexión Wi-Fi pública?

¿Qué son MDA y UML ejecutable? ¿Quién los usa? ¿Son realmente útiles para la industria del software o no software? ¿Cómo puedo aprender esto? ¿Hay algún buen libro que pueda descargar?

¿Qué debo hacer si mi computadora tiene poca memoria?

¿Debo aceptar un rol de analista tecnológico de $ 85K con Accenture en SF o estudiar en un campo de entrenamiento de codificación a largo plazo?

¿TensorFlow está sobrevalorado? ¿Merece ser mucho más popular que otros marcos?

¿Cuáles son los mejores autómatas celulares?

¿Qué es el autómata pushdown?