El idioma es más una elección personal, y la herramienta es más conveniente. La característica más importante para una herramienta es el soporte continuo y la documentación. Como se menciona que es para un tipo de proyecto de motor de búsqueda. Tengo 2 sugerencias:
- Use Python con NLTK, Natural Language Toolkit: contiene un muy buen conjunto de herramientas para el procesamiento de texto y scikit-learn, un buen conjunto de herramientas para el aprendizaje automático. Ningún proceso de minería de texto está completo sin algún aprendizaje subyacente.
- Otra opción, más adaptada para construir y desarrollar un motor de búsqueda es usar Terrier (http://terrier.org/). Es una herramienta / biblioteca de código abierto que se ejecuta con Java, y puede usarse especialmente para motores de búsqueda. O puedes echar un vistazo a Lucene y LingPipe con Java.