¿Qué es un modelo rico en funciones?

en.wikipedia.org/wiki/N-gram

En la práctica, se ha demostrado que los modelos de n-gramas son extremadamente efectivos para modelar datos de lenguaje, que es un componente central en las aplicaciones modernas de lenguaje estadístico. La mayoría de las aplicaciones modernas que se basan en modelos basados ​​en n-gramas, como las aplicaciones de traducción automática, no se basan exclusivamente en dichos modelos; en cambio, también suelen incorporar inferencia bayesiana.

Los modelos estadísticos modernos se componen típicamente de dos partes, una distribución previa que describe la probabilidad inherente de un posible resultado y una función de probabilidad utilizada para evaluar la compatibilidad de un posible resultado con los datos observados. Cuando se usa un modelo de lenguaje, se usa como parte de la distribución previa (por ejemplo, para medir la “bondad” inherente de una posible traducción), e incluso entonces a menudo no es el único componente en esta distribución.

También se utilizan características artesanales de varios tipos, por ejemplo, variables que representan la posición de una palabra en una oración o el tema general del discurso. Además, a menudo se utilizan características basadas en la estructura del resultado potencial, como consideraciones sintácticas. Dichas características también se utilizan como parte de la función de probabilidad, que utiliza los datos observados. La teoría lingüística convencional se puede incorporar en estas características (aunque en la práctica, es raro que se incorporen características específicas de las teorías gramaticales generativas u otras, ya que los lingüistas computacionales tienden a ser “agnósticos” hacia las teorías individuales de la gramática).