¿Cómo se toman los estados de Facebook o Tweets, que están escritos en un idioma mixto, en el análisis de sentimientos?

Felicitaciones … Feliz de ver a alguien que quiere aplicar algo de minería de texto al texto tamil. Para responder a su pregunta, no hay una forma directa de hacerlo. Pero puedes idear algunas soluciones alternativas.

Una forma de hacer un análisis de sentimientos es a través de la clasificación. Por lo tanto, necesita datos de entrenamiento, es decir, etiqueta manualmente el sentimiento para un conjunto de texto y luego lo usa como datos de entrenamiento para aprender el modelo de clasificación. En este caso, no importa de qué idioma sea el texto, si realiza tokenización y ngrams antes de aprender el modelo de clasificación, el modelo de aprendizaje se encargaría de esto. Pero el modelo solo se limita a las palabras que ya ha visto.

quieres hacerlo mejor En este caso. Primero necesitamos detectar el idioma, ya que en este caso usa caracteres tamil usando la búsqueda unicode podremos identificar el idioma. Una vez que sabemos que es tamil, intentamos hacer una búsqueda en el diccionario, si no encontramos palabras en el diccionario. Luego hay 2 posibilidades, ya sea texto traducido o basura. Aquí es donde se pone difícil. Según el contexto, podemos adivinar que se puede usar un tamil para transliterar el inglés seguido de cualquier idioma indio. Hay un algoritmo llamado soundex para idiomas europeos. Esto convierte las palabras en formato intermedio, para palabras que suenan similares, este formato intermedio sería el mismo. Necesitamos tal algoritmo para tamil, luego podemos verificar qué palabra suena así en inglés. Todavía solo sabemos cuál es la palabra en inglés ahora. Una vez más, llega al punto de que si ya hemos visto la palabra en los datos de entrenamiento, podremos predecir el sentimiento del texto.