¿Cuál es la razón para mapear datos de dos idiomas diferentes en un espacio de incrustación de palabras común y no usar dictonarios y asignarle el idioma b a los vectores del idioma a para entrenar un modelo de manera multilingüe?

Las incrustaciones codifican el contexto en el que se encuentra una palabra. Se puede usar para muchas cosas diferentes, pero escojamos un ejemplo: etiquetas POS.

Aquí desea generar una secuencia de etiquetas POS. Tenga en cuenta que la “misma” palabra tendrá la misma etiqueta POS pero un contexto de secuencia diferente en diferentes idiomas. En idiomas con preposiciones, verá PREP NOUN comúnmente; la misma construcción en un lenguaje de postposición verá PREPARACIÓN DE NOUN.

Desea que ese tipo de cosas se codifiquen en sus incrustaciones. Si solo toma las incrustaciones para inglés y trata de usarlas en turco, confundirá el etiquetador turco de POS.

Sin mencionar que hay muchos casos en que las palabras no son una traducción perfecta entre sí. Es interesante pensar en turco nuevamente: puede expresar fácilmente frases completas en una sola palabra en turco. ¿De cuál de las varias palabras en inglés usarías la incrustación?

Podría hacerlo, pero también podría perder mucha información en el camino.

Porque cada idioma tiene diferentes estructuras de oraciones. es decir. chino

Suponiendo que utiliza las incrustaciones de palabras para tareas como la similitud semántica, tendría que derivar el significado de dicha palabra utilizando las palabras que vienen antes y / o después … Por lo tanto, depende un poco de la estructura del lenguaje.

More Interesting

¿Qué tan buenos son los conjuntos de datos SIG en India (por ejemplo, red de carreteras / calles, parcelas municipales, etc.)? ¿Cuáles son las fuentes para este tipo de conjuntos de datos?

¿Cómo funciona la selección de características bayesianas?

¿Cómo está transformando el aprendizaje automático la investigación en biociencia?

Las entidades biológicas inconscientes que simplemente reaccionan automáticamente a su entorno han evolucionado y se han vuelto autoconscientes. ¿Qué impide que AI lo haga?

¿Cómo se puede aplicar el aprendizaje automático en los campos de la ingeniería química y de procesos?

¿Cómo y dónde podemos comenzar a implementar proyectos basados ​​en el aprendizaje automático y qué idioma es preferible para el mismo?

¿Existe un libro de aprendizaje automático que ofrece una guía paso a paso con números reales o ejemplos numéricos en algoritmos de aprendizaje automático?

¿Qué áreas del aprendizaje automático son más importantes para los fondos de cobertura y los bancos de inversión (en equipos cuantitativos)?

¿Qué biblioteca de Java utilizas para los algoritmos genéticos? ¿Por qué?

¿En qué conjuntos de datos se formó el Sistema de traducción automática neuronal (GNMT) de Google?

¿Cómo se puede usar MapReduce en problemas de optimización?

¿Qué áreas específicas de las matemáticas son útiles en neurociencia?

¿Cómo se debe contactar a los autores de los libros blancos (y cómo hacer que respondan)?

Cómo usar la función Master-Slave de PHPMyAdmin para replicar una base de datos en una máquina diferente

¿Qué pasos de procesamiento previo recomendaría para un aprendizaje automático exitoso en un conjunto de datos MNIST?