¿Cómo detecta Google Translate el idioma ‘sobre la marcha’?

Como he mencionado antes, nadie sabe lo que Google usa operacionalmente en sus productos. Sin embargo, la tarea de identificación del idioma ha recibido bastante atención en los últimos 5 años más o menos dada la importancia que tiene para la web. Lo más probable es que un enfoque de identificación de idioma exitoso utilice una forma de clasificación supervisada, tal vez combinada con algunas heurísticas para detectar cómo se codificó el texto.

Aquí hay algunos documentos recientes que describen algoritmos para la identificación del idioma:

  1. Timothy Baldwin y Marco Lui. 2010. Identificación del idioma: lo largo y lo corto del asunto. En Human Language Technologies: la Conferencia Anual 2010 del Capítulo de América del Norte de la Asociación de Lingüística Computacional (HLT ’10). http://www.aclweb.org/anthology-…
  2. Lui, Marco y Timothy Baldwin (2012) langid.py: una herramienta de identificación de idiomas lista para usar, en las actas de la 50ª reunión anual de la Asociación de Lingüística Computacional (ACL 2012), sesión de demostración , Jeju, República de Corea, pp. 25-30. http://www.aclweb.org/anthology-…
  3. Martin Majliš. 2012. Sin embargo, otro identificador de idioma. En Actas del Taller de Investigación de Estudiantes en la 13ª Conferencia del Capítulo Europeo de la Asociación de Lingüística Computacional (EACL ’12). Asociación de Lingüística Computacional, Stroudsburg, PA, EE. UU., 46-54. http://aclweb.org/anthology-new/…

Ingeniero clasificador bayesiano …