Como señaló Wengong, este es un problema de aprendizaje de transferencia. El enfoque 3 es una buena idea porque solo necesita etiquetas para el lado inglés y solo entrena una red. Existen varios métodos para mapear las incrustaciones de diferentes idiomas en el mismo espacio, cada uno con diferentes tipos de compensaciones. Por ejemplo:
* El método de matriz de traducción que menciona es simple y rápido y probablemente sea una buena primera opción (requiere un diccionario que pueda generar usted mismo, por ejemplo, Google Translate y un contenedor de Python para él, como goslate (https://pypi.python.org/ pipi / goslate).
* El método Barista (http://aclweb.org/anthology/N/N15/N15-1157.pdf) es simple y funciona con cualquier modelo de inclusión estándar. También solo requiere un diccionario.
- ¿Debería estudiar aprendizaje automático, aprendizaje profundo o aprendizaje de refuerzo?
- ¿Qué es una explicación intuitiva de DBSCAN?
- ¿Cuáles son los requisitos previos para comenzar todo este aprendizaje automático, procesamiento del lenguaje natural, aprendizaje profundo, etc.?
- ¿Qué es el análisis de componentes principales y cuántas variables se pueden usar para PCA?
- ¿Cuáles son las relaciones entre el aprendizaje automático, el aprendizaje profundo, el aprendizaje supervisado y el aprendizaje no supervisado?
* El BiCVM de Hermann et al. (https://github.com/karlmoritz/bicvm) también es rápido y solo requiere datos paralelos adicionales como Europarl.
* El método BilBOWA (https://github.com/gouwsmeister/bilbowa) por mí y mis colegas también es rápido y requiere datos monolingües (por ejemplo, Wikipedia) y bilingües (por ejemplo, Europarl).
Es difícil decir de antemano qué métodos serían los mejores. Lo mejor es probarlos y ver por usted mismo en su tarea específica. Aunque no estoy seguro de si alguien ha puesto a disposición incrustaciones multilingües de propósito general (pronto lanzaré mis incrustaciones BilBOWA), sí sé que puede descargar incrustaciones multilingües preentrenadas (entrenadas por separado, es decir, no alineadas) para muchos idiomas aquí: https : //sites.google.com/site/rmyeid/projects/polyglot#TOC-Download-the-Embeddings. Por ejemplo, puede usarlos directamente en el primer método.