En términos generales, hay dos categorías de enfoques de traducción automática (MT), a saber, MT basado en reglas y MT estadística.
El sistema MT basado en reglas tiene un gran conjunto de reglas y diccionarios que definen el proceso de traducción. Necesita una visión profunda de la dinámica de los idiomas de origen y destino.
El MT estadístico funciona principalmente en función de los datos. Aprende un conjunto de probabilidades de corpus paralelos (una gran colección de oraciones en el idioma de origen y sus traducciones en el idioma de destino). El flujo de trabajo de capacitación SMT típico se puede poner de la siguiente manera:
1. Alineaciones de aprendizaje: dadas un par de oraciones que son traducciones entre sí, descubriendo el mapeo entre palabras y frases del idioma de origen y de destino. Herramientas como GIZA ++ son muy útiles para este paso.
2. Modelo de lenguaje de aprendizaje: Encontrar la probabilidad de que las palabras aparezcan juntas en una secuencia para el idioma de destino, lo que eventualmente ayudará a lograr la fluidez de la salida que generamos.
3. Probabilidades de traducción de aprendizaje: una palabra o un conjunto de palabras pueden traducirse a múltiples frases diferentes según el contexto. Por lo tanto, dada la alineación, podemos encontrar las probabilidades de que las palabras / frases de origen se traduzcan en posibles palabras / frases objetivo. Estas probabilidades se utilizarán para encontrar la traducción significativa en el idioma de destino.
4. Hay muchos otros factores como Bravity, Smoothing, etc., que puedes aprender a lo largo del tiempo.
5. Una vez que tenga el Modelo de lenguaje (LM) y las probabilidades de traducción, puede encontrar la traducción candidata más probable para una oración dada.
6. Aunque el procedimiento anterior parece bastante largo para una implementación rápida, las personas ya han creado buenas plataformas genéricas para esta configuración. Herramientas como Moses (Moses – Main / HomePage) proporcionan todas estas habilidades y mucho más. Crear una traducción automática estadística estadística (SMT) apenas lleva un par de horas si tiene un corpus paralelo de buena calidad para los idiomas de su interés.
- ¿Crees que la ciencia (por ejemplo, la física teórica) será asumida por la inteligencia de la computadora, dado el creciente poder de cálculo y búsqueda de patrones?
- ¿Cómo son los cursos de aprendizaje automático y la investigación en la Universidad de Florida?
- ¿Cuál es la mejor práctica para las secuencias de comandos del lado del servidor?
- ¿Cuándo la regresión logística funciona mal y se debe preferir la máquina de vectores de soporte (SVM)?
- ¿Cuándo podrán las computadoras leer el cerebro de un humano?
Además, si desea tener una buena comprensión de la teoría de SMT, debe leer sobre los modelos de SMT de IBM: http://www.cs.columbia.edu/~mcol…
Una vez que cree el traductor básico, puede ajustarlo según su comprensión de las propiedades de los idiomas de origen y destino, y hacer que funcione mejor. Si cree que los idiomas involucrados son fonológicamente ricos, es posible que deba considerar realizar un procesamiento previo / posterior de los datos en varias etapas. Un buen ejemplo es: http://www.aclweb.org/anthology/…
Todo lo mejor para tu primer traductor.