Algunas cosas básicas que buscaría en una biblioteca de PNL:
- División de oraciones
- Tallo
- Análisis de frecuencia de palabras
- Análisis de coincidencia (1º y 2º grado; para palabras adyacentes, pero también en base a oraciones y tal vez párrafos)
- etiquetado de parte del discurso
- estadísticas de trigram
Un poco más avanzado:
- reconocimiento de entidad nombrada
- desambiguación de sentido de palabra
Pero también es importante tener un buen juego de herramientas para construir una aplicación de PNL. Lo siguiente probablemente sería útil:
- ¿Cuándo debo aprender tensorflow?
- ¿Cómo se interpretan la precisión y el recuerdo en una tarea de segmentación?
- ¿Cuál es la tecnología detrás de la aplicación Summly recién adquirida por Yahoo?
- ¿Por qué se supera un clasificador supervisado?
- Como principiante, ¿cómo debo estudiar el aprendizaje profundo?
- estructuras de datos para vectores de características
- implementaciones de diferentes medidas de distancia (cosim, etc.)
- una biblioteca para agrupación (k-means, etc.)
- un clasificador bayesiano
Ahora, no necesita admitir todo esto y, a menudo, se podrían usar las bibliotecas existentes, especialmente para lo esencial. Sin embargo, reinventar algunas ruedas de vez en cuando es bastante edificante.