Cómo extender una red neuronal profunda que se capacitó en la inclusión de palabras en inglés como entrada en una tarea de clasificación a multilingüe

Como señaló Wengong, este es un problema de aprendizaje de transferencia. El enfoque 3 es una buena idea porque solo necesita etiquetas para el lado inglés y solo entrena una red. Existen varios métodos para mapear las incrustaciones de diferentes idiomas en el mismo espacio, cada uno con diferentes tipos de compensaciones. Por ejemplo:

* El método de matriz de traducción que menciona es simple y rápido y probablemente sea una buena primera opción (requiere un diccionario que pueda generar usted mismo, por ejemplo, Google Translate y un contenedor de Python para él, como goslate (https://pypi.python.org/ pipi / goslate).

* El método Barista (http://aclweb.org/anthology/N/N15/N15-1157.pdf) es simple y funciona con cualquier modelo de inclusión estándar. También solo requiere un diccionario.

* El BiCVM de Hermann et al. (https://github.com/karlmoritz/bicvm) también es rápido y solo requiere datos paralelos adicionales como Europarl.

* El método BilBOWA (https://github.com/gouwsmeister/bilbowa) por mí y mis colegas también es rápido y requiere datos monolingües (por ejemplo, Wikipedia) y bilingües (por ejemplo, Europarl).

Es difícil decir de antemano qué métodos serían los mejores. Lo mejor es probarlos y ver por usted mismo en su tarea específica. Aunque no estoy seguro de si alguien ha puesto a disposición incrustaciones multilingües de propósito general (pronto lanzaré mis incrustaciones BilBOWA), sí sé que puede descargar incrustaciones multilingües preentrenadas (entrenadas por separado, es decir, no alineadas) para muchos idiomas aquí: https : //sites.google.com/site/rmyeid/projects/polyglot#TOC-Download-the-Embeddings. Por ejemplo, puede usarlos directamente en el primer método.

Básicamente, lo que está tratando de hacer es transferir el aprendizaje (o entrenamiento adaptativo en reconocimiento de voz).

Los dos primeros enfoques son aburridos. Prueba el tercer enfoque. Hay dos posibles experimentos:
1. Exactamente su tercer enfoque. Pero la matriz de traducción se entrena primero y luego su clasificación.
2. Entrene conjuntamente la matriz de traducción junto con su tarea de clasificación. Incruste la matriz de traducción en su DNN. Como tiene un mapeo bilingüe (pequeño, etiquetado), cuando una palabra tiene su sinónimo bilingüe, use la contraparte bilingüe y mapee, usando la matriz de traducción. SGD puede entrenar todos los parámetros (incluida la matriz de traducción).