¿Qué biblioteca de PNL cubre la mayoría de los idiomas para un proyecto de análisis de sentimientos?

Si su principal preocupación es la cantidad de idiomas admitidos, entonces no debe usar NLTK ni construir nada desde cero para esto. La mayoría de las herramientas de análisis de sentimientos están centradas en el inglés, o potencialmente solo tienen un par de otros idiomas compatibles.

Las opciones que verá para admitir otros idiomas son:

  1. Agregue una capa de traducción sobre sus modelos
  2. Usar modelos basados ​​en morfemas y léxicos
  3. Recopilar conjuntos de datos específicos del idioma

El primero no es ideal en gran medida porque el sentimiento es exactamente el tipo de información que se pierde en la traducción y, aunque la traducción es buena, todavía está lejos de ser perfecta.

El segundo no es ideal en gran medida porque significa que está utilizando una tecnología de análisis de sentimientos muy antigua e inexacta. Hace que sea mucho más fácil mover cosas a través de los idiomas porque solo puede crear un nuevo diccionario, pero especialmente para el texto informal, esto funciona muy mal.

El tercer enfoque no es ideal porque es extremadamente laborioso. Recopilar un conjunto de datos para cada idioma (que es lo que tendría que hacer para construirlos desde cero) es extremadamente laborioso.

Basis Tech es generalmente bastante bueno para soporte y búsqueda de idiomas grandes, pero sus ofertas de análisis de sentimientos aún son muy inmaduras y actualmente solo admiten tres idiomas. Están utilizando el método # 2 para la mayoría de sus técnicos.

IBM Watson es obviamente el gigante en el espacio, y tienen soporte para ocho idiomas. No está claro qué métodos están usando. AlchemyAPI normalmente dependería del n. ° 3, pero nunca se expandieron tanto, e IBM Watson generalmente es un fanático del enfoque n. ° 2 para sus otros modelos.

indico.io es la solución con la que estoy más familiarizado y de todas las soluciones que he visto, actualmente tenemos el soporte de idiomas más amplio. Como beneficio, puedo asegurarle que utilizamos el enfoque n. ° 3 (identifiqué y reuní los conjuntos de datos yo mismo). Nuestra lista actual de idiomas es árabe, mandarín, holandés, inglés, francés, alemán, italiano, japonés, coreano, portugués, ruso y español. También hemos mantenido el estado del arte en análisis de sentimientos en el corpus de IMDB desde 2015 (Indico establece un nuevo récord para el análisis de sentimientos, anuncia una nueva asociación)

Obviamente soy parcial, pero por lo que puedo decir, Indico es tu mejor opción.

Si planea hacer un análisis de sentimientos basado en la ingeniería de características, NLTK en Python lo ayudará con eso. Contiene una gran cantidad de herramientas que puede usar, como la derivación, la lematización y otras herramientas que puede usar. Además, NLTK contiene un análisis de sentimiento incorporado que podría usarse para la clasificación, pero no es muy preciso. También hay spaCy, que es una biblioteca poderosa en PNL.

Si piensa usar palabras semánticas y de aprendizaje profundo, necesitará usar una biblioteca de aprendizaje profundo, como Tensorflow y PyTorch, para admitir su biblioteca de PNL.

More Interesting

Supervisado versus no supervisado, inferencia versus predicción, paramétrico versus no paramétrico, ¿cómo se combinan esas características entre sí?

¿Es el número de nodos en una capa oculta más que la capa de entrada? ¿Es esto un problema? ¿Qué se puede aprender en tales redes neuronales?

¿Cuáles son los problemas menos resueltos o no resueltos que se pueden resolver con el aprendizaje automático y el aprendizaje profundo?

¿Cuáles son algunos de los conjuntos de habilidades esenciales que debe tener un desarrollador de aprendizaje automático?

Cómo usar KNN para datos mixtos (categóricos y numéricos)

Inferencia bayesiana: si tuviera que trazar un millar de correos electrónicos basados ​​en "spaminess" utilizando un algoritmo simple de Naive Bayes para establecer la probabilidad de "spaminess" para el eje x, ¿cuál debería ser mi eje y?

¿Cómo funcionan los métodos de conjunto y por qué son superiores a los modelos individuales?

¿Qué significa el término 'soft-max' en el contexto del aprendizaje automático?

¿Cómo son útiles las redes neuronales convolucionales para las empresas e industrias normales?

¿Qué es incrustar | espacio incrustado | ¿Incorporación de características en arquitecturas neurales profundas?

Cómo usar el aprendizaje automático para identificar patrones en la trama de series de tiempo

¿Cuál es la forma más sencilla de entender el equilibrio de sesgo-varianza en el aprendizaje automático?

¿Cuál es la diferencia entre un ingenuo clasificador Bayes y una red bayesiana?

¿Qué se debe considerar al decidir entre usar un algoritmo de filtrado colaborativo basado en el usuario y en el elemento?

Cómo hacer una biblioteca en ML como Tensorflow