¿Cuáles son las funcionalidades clave que debe tener una biblioteca NLP mínima?

Algunas cosas básicas que buscaría en una biblioteca de PNL:

  • División de oraciones
  • Tallo
  • Análisis de frecuencia de palabras
  • Análisis de coincidencia (1º y 2º grado; para palabras adyacentes, pero también en base a oraciones y tal vez párrafos)
  • etiquetado de parte del discurso
  • estadísticas de trigram

Un poco más avanzado:

  • reconocimiento de entidad nombrada
  • desambiguación de sentido de palabra

Pero también es importante tener un buen juego de herramientas para construir una aplicación de PNL. Lo siguiente probablemente sería útil:

  • estructuras de datos para vectores de características
  • implementaciones de diferentes medidas de distancia (cosim, etc.)
  • una biblioteca para agrupación (k-means, etc.)
  • un clasificador bayesiano

Ahora, no necesita admitir todo esto y, a menudo, se podrían usar las bibliotecas existentes, especialmente para lo esencial. Sin embargo, reinventar algunas ruedas de vez en cuando es bastante edificante.