¿Qué plataforma / herramienta / idioma debería ser bueno para la minería de texto?

El idioma es más una elección personal, y la herramienta es más conveniente. La característica más importante para una herramienta es el soporte continuo y la documentación. Como se menciona que es para un tipo de proyecto de motor de búsqueda. Tengo 2 sugerencias:

  1. Use Python con NLTK, Natural Language Toolkit: contiene un muy buen conjunto de herramientas para el procesamiento de texto y scikit-learn, un buen conjunto de herramientas para el aprendizaje automático. Ningún proceso de minería de texto está completo sin algún aprendizaje subyacente.
  2. Otra opción, más adaptada para construir y desarrollar un motor de búsqueda es usar Terrier (http://terrier.org/). Es una herramienta / biblioteca de código abierto que se ejecuta con Java, y puede usarse especialmente para motores de búsqueda. O puedes echar un vistazo a Lucene y LingPipe con Java.

Puede usar la API de minería de texto (como http://www.wikimeta.com por ejemplo). Dichas herramientas le permitirán enviar un documento de texto a un servidor y recuperarlo con varias capas de anotaciones. Dependiendo del tipo de minería que desee, debe verificar que la API devuelva las capas de anotación de brujas.

Por lo general, puede recuperar etiquetas de parte del discurso (naturaleza de las palabras como verbos, adjetivos, etc.), etiquetas de entidad con nombre (si una secuencia de palabras representa una persona, una organización, etc.) y anotaciones semánticas (como URI enlaces a la red de datos vinculados).

El uso de servicios web como API puede considerarse una solución menos flexible que el uso de software local de extracción de texto y etiquetado (como las herramientas Stanford NLP o Lingpipe), pero le permite centrarse en su proyecto global y dejar que los desarrolladores de API mantengan una buena extracción de texto solución y mejorarlo.

Lo siguiente está más orientado a la pregunta principal que a los detalles de la pregunta. Aunque, creo que puede incluir algo de eso también.

Creo que el análisis predictivo parece tener un poco más de credibilidad, pero puedo estar equivocado:

Análisis analítico de Butler:

  • Más de 20 plataformas de software de minería de datos gratuitas – Butler Analytics
  • Más de 5 herramientas gratuitas de minería de texto – Butler Analytics

Análisis predictivo hoy:

  • Los mejores 37 software para análisis de texto, minería de texto, análisis de texto – Predictive Analytics Today
  • Los 16 mejores programas gratuitos para análisis de texto, minería de texto, análisis de texto – Predictive Analytics Today