¿Cómo detectar el idioma de un texto escrito en inglés? ¿Hay una API disponible donde podamos dar el texto como entrada?

La progresión de los contenidos de las redes sociales, similares a los mensajes de Twitter y Facebook y la publicación de blog, ha creado muchas nuevas oportunidades para la tecnología del lenguaje. Los contenidos generados por el usuario, como los tweets y los blogs en la mayoría de los idiomas, se escriben con escritura romana debido a la cultura y la tecnología social. Algunos de ellos usan un lenguaje propio y un script mixto. Los principales desafíos en el proceso del mensaje corto es identificar idiomas. Por lo tanto, la identificación del idioma no está restringida a un idioma sino también a varios idiomas. La tarea consiste en etiquetar las palabras con las siguientes categorías L1, L2, Entidades nombradas, Mixto, Puntuación y otros Etiquetado de palabras de consulta en la identificación del idioma de cada palabra en el texto, Entidades nombradas, Mixto, Puntuación y otros que utilizan el etiquetado de consulta de nivel de secuencia con Máquinas de vectores soporte.

En este proyecto utilicé nueve idiomas indios.

http://irlab.daiict.ac.in/FIRE20…

Related Content

¿Qué debo aprender para el aprendizaje automático, C ++ o Python?

Cómo comenzar a programar una IA básica de autoaprendizaje

¿Cuál es la diferencia entre tagger, chunker y NER?

¿Alguna vez has observado que la normalización por lotes en realidad ralentiza el entrenamiento?

¿Es el hecho de que los algoritmos de aprendizaje profundo requieren grandes extensiones de datos como una limitación final de su potencial en IA?

¿Microsoft espía los archivos privados de los usuarios de Windows?

¿Qué tan importante es Octave como primer paso en Machine Learning? ¿Se utiliza en la industria?

Hola,

Hice un proyecto básico como este en un ejercicio de programación, así que aquí hay algunas ideas. Intentaré que sea muy simple, ya que no conozco tu familiaridad con este tipo de cosas.

Entonces, aquí están los conceptos básicos:

Si tiene mucho texto para inglés-inglés y telugu-inglés, puede escribir un programa que calcule las frecuencias de las letras.

Casi todos los idiomas usan otras letras con más frecuencia, aquí una descripción rápida:

Frecuencia de letras

Lo mismo es aún más cierto para las letras bigramas, por lo que en lugar de dividir el texto Nenu Bagunnanu en letras como: N, e, n, u, lo divide en esas categorías: Ne, en, nu …

La distribución de letras bigramas es aún más diferente para cada idioma.

Con eso, puede crear un modelo de idioma para cada idioma para el que tenga datos.

Con eso, puede calcular el valor P (ci | ci − 1), entonces, ¿cuál es la probabilidad de que una determinada letra venga después de una letra anterior específica?

Si luego revisa el texto que analiza, puede calcular cuál es el idioma que puede crear ese texto con la mayor probabilidad.

Otro enfoque es el siguiente: si tiene suficientes datos para cada idioma, escriba un programa que devuelva las palabras específicas solo a ese idioma.

Luego puede revisar el texto que desea analizar y contar el idioma en el que se encuentra una palabra específica, y gana el idioma con el conteo más alto.

Avísame si puedo ayudarte.

Saludos.

Ankit Narayan

En mi opinión, esta API lo ayudará a resolver esta tarea AI Data Analysis Technologies for Business

La API de procesamiento de lenguaje natural de SummarizeBot incluye el componente de reconocimiento de lenguaje como elemento base. Aquí está la documentación detallada API Documentation

El método de detección de idioma analiza un documento que usted proporciona y reconoce el idioma del texto. El método devuelve el código de idioma conforme a los identificadores ISO 639-1.

Puede extraer el lenguaje de la url o cualquier archivo de texto (txt, html, doc, pdf y etc.)

Ankit Narayan

La detección de idiomas y el reconocimiento de idiomas API son bastante populares. Esta tarea fue resuelta muchas veces.

crodas / LanguageDetector
API de detección de idioma
Detección de lenguaje
Lista de más de 25 API de procesamiento de lenguaje natural – Mashape Blog
Detección de idioma: clasificación x consumo de usuario

Begtin Ivan

ParallelDots proporciona una API de detección de idioma con un nivel generoso y gratuito para nuevas empresas y pequeñas empresas.

Encuentre más información de los documentos aquí.

Ankit Narayan

More Interesting

¿Vale la pena aprender Machine Learning (y AI) si quiero seguir la carrera de Ingeniero Embebido?

¿Qué problemas o conjuntos de datos existen cuando usar el impulso da mejores resultados que usar un SGD simple?

¿Qué herramientas estadísticas se necesitan para la extracción de características y el reconocimiento de patrones en el procesamiento de imágenes?

¿Cuál es el significado de los recientes anuncios de aprendizaje automático de código abierto?

¿Existe una definición matemática para una máquina de vectores de soporte?

¿Qué opinas de la biblioteca de aprendizaje profundo de código abierto de Amazon 'DSSTNE' (pronunciado Destiny)?

¿Qué ha aprendido sobre el aprendizaje automático, la recuperación de información y la minería de datos después de unirse a una empresa de Internet que se ocupa de big data?

Para un problema de clasificación supervisada, primero busque grupos a través de un algoritmo de aprendizaje no supervisado, y para los miembros en el mismo grupo, asigne la misma etiqueta según un voto mayoritario. ¿Funciona bien?

¿Puedo usar videos de YouTube para hacer aprendizaje automático comercial?

¿Quiénes son algunos de los mayores usuarios de Apache Hive? ¿Cuáles son sus casos de uso? ¿experiencias?

Cómo analizar páginas web a través de enlaces de Twitter

¿Puede el aprendizaje profundo manejar datos desequilibrados?

¿Cuáles son las ventajas de la maximización de la expectativa sobre el gradiente decente para ajustar un modelo de mezcla gaussiana?

¿Hay trabajos de investigación que utilicen el aprendizaje profundo para tomar decisiones clínicas?

Si no escalo las características antes de aplicar el descenso de gradiente, ralentizará la convergencia, pero ¿puede cambiar los resultados?

Web Analytics