¿Qué tipo de estructuras de datos podrían usarse en un proyecto de procesamiento de lenguaje natural?

He trabajado en el área de PNL por un tiempo, y como la mayoría de las personas que trabajan en PNL, nunca me concentré en qué estructuras de datos elegir, en lugar de qué técnicas aplicar.

Comprendamos cómo las estructuras de datos serán útiles en proyectos basados ​​en PNL. Además de almacenar y recuperar texto (cadenas), las estructuras de datos no desempeñarían otro papel en la determinación del rendimiento del resultado. Lo que necesitamos es un almacenamiento eficiente y una recuperación más rápida del texto, en proyectos de este tipo. Entonces, teniendo en cuenta lo anterior, mi elección sería “árboles”, “montones” y “tabla hash”.

Auto-promoción descarada: Recientemente lanzamos una herramienta de análisis de sentimientos llamada www.stride.ai/texsie en la que aprovechamos algunas de las estructuras de datos mencionadas anteriormente.

Existen algunas estructuras de datos más específicas para la PNL cuando se trata de la ambigüedad, que se encuentra en todos los aspectos de la PNL.

  • Las redes de palabras se utilizan en las primeras etapas tanto en la segmentación de voz como de texto. Son un tipo específico de gráfico acíclico dirigido ( DAG ).
  • Las redes de confusión parecen ser un pariente más avanzado / poderoso de la red recién mencionada.
  • Los bosques de Parse son parientes que respaldan la ambigüedad de los árboles de análisis. Un subtipo clave es el bosque de análisis empaquetado compartido ( SPPF ).

No soy un experto, solo soy una aficionada interesada que lee documentos en el campo.

Además de árboles , montones y hastables que son caballos de batalla de las aplicaciones de PNL, Trie puede usarse en análisis morfológicos.