¿Qué tipo de estructuras de datos podrían usarse en un proyecto de procesamiento de lenguaje natural?

He trabajado en el área de PNL por un tiempo, y como la mayoría de las personas que trabajan en PNL, nunca me concentré en qué estructuras de datos elegir, en lugar de qué técnicas aplicar.

Comprendamos cómo las estructuras de datos serán útiles en proyectos basados en PNL. Además de almacenar y recuperar texto (cadenas), las estructuras de datos no desempeñarían otro papel en la determinación del rendimiento del resultado. Lo que necesitamos es un almacenamiento eficiente y una recuperación más rápida del texto, en proyectos de este tipo. Entonces, teniendo en cuenta lo anterior, mi elección sería “árboles”, “montones” y “tabla hash”.

Auto-promoción descarada: Recientemente lanzamos una herramienta de análisis de sentimientos llamada www.stride.ai/texsie en la que aprovechamos algunas de las estructuras de datos mencionadas anteriormente.

AlgoritmosAprendizaje automáticodatosEstructuras de datosMinería dePregunta de clasificaciónProcesamiento de lenguaje natural

Related Content

¿Cuáles son las ventajas de la regresión logística?

¿Cómo podemos interpretar el coeficiente para cierta variable independiente en regresión lineal simple y para el mismo en regresión lineal múltiple?

¿Por qué las computadoras no pueden superar de manera confiable a los humanos en reconocimiento facial?

¿Puede la coincidencia de patrones funcionar en la clasificación de imágenes en color con SVM?

¿Por qué las celdas LSTM tienen dos puertas de escritura?

¿Hay alguna manera de probar el límite de precisión teórica para clasificar un conjunto de datos en particular? O, ¿hay alguna forma de confirmar que la calidad de los datos es insuficiente para un problema?

Cómo detectar si una imagen contiene uno o más rostros humanos

Existen algunas estructuras de datos más específicas para la PNL cuando se trata de la ambigüedad, que se encuentra en todos los aspectos de la PNL.

Las redes de palabras se utilizan en las primeras etapas tanto en la segmentación de voz como de texto. Son un tipo específico de gráfico acíclico dirigido ( DAG ).
Las redes de confusión parecen ser un pariente más avanzado / poderoso de la red recién mencionada.
Los bosques de Parse son parientes que respaldan la ambigüedad de los árboles de análisis. Un subtipo clave es el bosque de análisis empaquetado compartido ( SPPF ).

No soy un experto, solo soy una aficionada interesada que lee documentos en el campo.

Osman Baskaya

Además de árboles , montones y hastables que son caballos de batalla de las aplicaciones de PNL, Trie puede usarse en análisis morfológicos.

Osman Baskaya

More Interesting

¿Hay algún profesor actual en Asia que tenga un historial con Bayesian no paramétrico, tanto en teoría como en aplicación?

¿Cuál es el progreso en visión artificial?

¿Cómo comenzó Perl como el idioma dominante en bioinformática?

¿Es más fácil construir un vehículo autónomo que un sistema de traducción automática a nivel humano?

¿Cuál es una buena manera de convertir métrica discreta en métrica circular?

¿Es c # una buena opción para el aprendizaje automático de producción?

¿Qué son las vigas reforzadas sobrerreforzadas, subreforzadas y equilibradas?

Cómo evaluar un experimento además de usar una diferencia en regresión de diferencia

¿Cuál es la forma más fácil de entender el análisis de componentes principales?

¿Qué utiliza la aspiradora robótica como recompensa si utilizan el aprendizaje por refuerzo como algoritmo?

¿Por qué las redes neuronales artificiales son "cajas negras"?

¿Es la verificación en el aprendizaje profundo un tema candente?

¿Cuál es el tamaño de equipo típico para un proyecto de aprendizaje automático?

¿Cuáles son algunos de los buenos libros sobre redes neuronales artificiales, minería de datos, aprendizaje automático, big data y análisis de datos?

¿El trabajo de finanzas corporativas será reemplazado por aprendizaje automático?

Web Analytics