Cómo extender una red neuronal profunda que se capacitó en la inclusión de palabras en inglés como entrada en una tarea de clasificación a multilingüe

Como señaló Wengong, este es un problema de aprendizaje de transferencia. El enfoque 3 es una buena idea porque solo necesita etiquetas para el lado inglés y solo entrena una red. Existen varios métodos para mapear las incrustaciones de diferentes idiomas en el mismo espacio, cada uno con diferentes tipos de compensaciones. Por ejemplo:

* El método de matriz de traducción que menciona es simple y rápido y probablemente sea una buena primera opción (requiere un diccionario que pueda generar usted mismo, por ejemplo, Google Translate y un contenedor de Python para él, como goslate (https://pypi.python.org/ pipi / goslate).

* El método Barista (http://aclweb.org/anthology/N/N15/N15-1157.pdf) es simple y funciona con cualquier modelo de inclusión estándar. También solo requiere un diccionario.

* El BiCVM de Hermann et al. (https://github.com/karlmoritz/bicvm) también es rápido y solo requiere datos paralelos adicionales como Europarl.

* El método BilBOWA (https://github.com/gouwsmeister/bilbowa) por mí y mis colegas también es rápido y requiere datos monolingües (por ejemplo, Wikipedia) y bilingües (por ejemplo, Europarl).

Es difícil decir de antemano qué métodos serían los mejores. Lo mejor es probarlos y ver por usted mismo en su tarea específica. Aunque no estoy seguro de si alguien ha puesto a disposición incrustaciones multilingües de propósito general (pronto lanzaré mis incrustaciones BilBOWA), sí sé que puede descargar incrustaciones multilingües preentrenadas (entrenadas por separado, es decir, no alineadas) para muchos idiomas aquí: https : //sites.google.com/site/rmyeid/projects/polyglot#TOC-Download-the-Embeddings. Por ejemplo, puede usarlos directamente en el primer método.

Aprendizaje automáticoAprendizaje profundoProcesamiento de lenguaje naturalRedes neuronales artificiales

¿Cómo evaluaría un sistema de recomendación si todo lo que tiene son calificaciones de elementos de usuario?

¿Por qué el gradiente en el punto mínimo no es igual a 0?

Estoy creando un plan de enrutamiento de vehículos con la ruta y el costo más bajos. ¿Sería más significativo el agrupamiento k-k o los vecinos k-más cercanos?

¿Cuáles son los sitios web que debe visitar un amante del diseño de máquinas?

¿Cómo combinaría Apache Spark y CUDA para implementar un marco de aprendizaje profundo?

¿Cuáles son algunas herramientas modernas de gestión / planificación de proyectos basadas en la nube?

Básicamente, lo que está tratando de hacer es transferir el aprendizaje (o entrenamiento adaptativo en reconocimiento de voz).

Los dos primeros enfoques son aburridos. Prueba el tercer enfoque. Hay dos posibles experimentos:
1. Exactamente su tercer enfoque. Pero la matriz de traducción se entrena primero y luego su clasificación.
2. Entrene conjuntamente la matriz de traducción junto con su tarea de clasificación. Incruste la matriz de traducción en su DNN. Como tiene un mapeo bilingüe (pequeño, etiquetado), cuando una palabra tiene su sinónimo bilingüe, use la contraparte bilingüe y mapee, usando la matriz de traducción. SGD puede entrenar todos los parámetros (incluida la matriz de traducción).

Wengong Jin

More Interesting

¿Cuál es la mejor biblioteca SVM utilizable desde Python?

¿El aprendizaje automático permitirá a Google detectar contenido falso?

¿Por qué algunos clasificadores no pueden manejar los atributos continuos?

¿Cuáles son las intersecciones entre los campos de la ciencia de datos y los sistemas complejos?

¿Qué función podría usar en R para encontrar los n valores más grandes de un vector?

¿Quiénes son algunos investigadores notables del aprendizaje automático?

En un problema de optimización no convexo, ¿es posible determinar si dos puntos pertenecen al mismo valle o no?

Quiero aprender Python para el análisis de datos y el aprendizaje automático. ¿De dónde debería comenzar?

¿Qué son las redes amplias?

¿Para qué grandes problemas se han utilizado las SVM (Máquinas de vectores de soporte)?