en.wikipedia.org/wiki/N-gram
En la práctica, se ha demostrado que los modelos de n-gramas son extremadamente efectivos para modelar datos de lenguaje, que es un componente central en las aplicaciones modernas de lenguaje estadístico. La mayoría de las aplicaciones modernas que se basan en modelos basados en n-gramas, como las aplicaciones de traducción automática, no se basan exclusivamente en dichos modelos; en cambio, también suelen incorporar inferencia bayesiana.
Los modelos estadísticos modernos se componen típicamente de dos partes, una distribución previa que describe la probabilidad inherente de un posible resultado y una función de probabilidad utilizada para evaluar la compatibilidad de un posible resultado con los datos observados. Cuando se usa un modelo de lenguaje, se usa como parte de la distribución previa (por ejemplo, para medir la “bondad” inherente de una posible traducción), e incluso entonces a menudo no es el único componente en esta distribución.
- ¿Cuál es la razón detrás de la prueba de Turing?
- ¿Puede la IA ayudarnos a conocer mejor los agujeros negros, la energía oscura y la materia oscura? Si es así, ¿cómo?
- ¿Todos los robots tienen IA?
- ¿Qué implica exactamente la robótica? Al estudiar robótica, ¿podría uno construir un verdadero traje de Iron Man y su IA, Jarvis?
- Cómo ajustar mejor la tasa de aprendizaje de acuerdo con el conjunto de datos en una red neuronal profunda
También se utilizan características artesanales de varios tipos, por ejemplo, variables que representan la posición de una palabra en una oración o el tema general del discurso. Además, a menudo se utilizan características basadas en la estructura del resultado potencial, como consideraciones sintácticas. Dichas características también se utilizan como parte de la función de probabilidad, que utiliza los datos observados. La teoría lingüística convencional se puede incorporar en estas características (aunque en la práctica, es raro que se incorporen características específicas de las teorías gramaticales generativas u otras, ya que los lingüistas computacionales tienden a ser “agnósticos” hacia las teorías individuales de la gramática).