¿Cuál es la diferencia entre los clasificadores de aprendizaje automático y los modelos de lenguaje estadístico?

Gracias por A2A: los modelos de lenguaje pueden considerarse como una colección de muchos clasificadores multiclase (al menos tantos clasificadores como condicionales … aclararé en breve lo que quiero decir).

Un clasificador “probabilístico” en cualquier entorno de aprendizaje automático es algo que asigna probabilidad a las clases dadas la entrada (llamaremos a la entrada condicional ya que, condicionada a ella, usted decide qué clase es más probable). Por lo tanto, si su entrada está representada por ‘X’ y la salida está representada por ‘y’ donde ‘y’ es una de las etiquetas de clase, entonces cualquier clasificador probabilístico trataría de obtener esa ‘y’ que maximiza la probabilidad posterior, es decir:

y * = argmax P (y | X), donde ‘X’ son características e ‘y’ es una de las etiquetas de clase ……… .. (1)

Ahora, ¿qué hace un modelo de lenguaje? Dado un cierto contexto de palabras (lo denotaremos por ‘H’ para la historia), trata de encontrar la siguiente palabra más probable (la denotaremos por ‘w’). Por lo tanto, dado el contexto, la siguiente palabra se descubre resolviendo:

w * = argmax P (w | H), donde ‘H’ es el contexto de las palabras y ‘w’ es la siguiente palabra .. (2)

Ahora simplemente cambie la notación y reemplace ‘H’ con ‘X’ y ‘w’ con ‘y’ y esencialmente volverá a la ecuación (1). Entonces, dado algún contexto, un modelo de lenguaje está actuando como un clasificador. Sin embargo, la principal diferencia es que en un modelo de lenguaje debe poder predecir la siguiente palabra dado el contexto “cualquiera”. Esto significa que su modelo de idioma no es más que una colección de muchos clasificadores de clases múltiples. ¿Cuántos clasificadores? Depende de la familia de modelos. Para un modelo de lenguaje de n-gramas con, digamos, n = 3, y tamaño de vocabulario = | V |, su modelo de idioma puede predecir la siguiente palabra para contextos de | V | ^ 2. Por lo tanto, para un modelo de lenguaje n-gram con n = 3, existen al menos esos muchos clasificadores. Si su modelo de idioma es sofisticado, como por ejemplo el Modelo de lenguaje de red neuronal recurrente, entonces la cantidad de contextos y, por lo tanto, la cantidad de clasificadores, son infinitamente contables.

Espero que esto ayude !

Los modelos estadísticos del lenguaje, como su nombre lo indica, se utilizan para asignar probabilidades a varios aspectos del texto (generalmente oraciones). Dicho esto, no es práctico asignar una probabilidad a cada oración individual ya que el espacio de todas las oraciones posibles sintácticamente y semánticamente correctas es muy grande.

Por lo tanto, tratamos de solucionar el problema utilizando modelos de n-gramas [1] donde tratamos de predecir la probabilidad de la palabra actual dadas las últimas n palabras que han visto.

Ahora, puede pensar en un modelo de lenguaje estadístico como un clasificador que tiene clases iguales al número de palabras en su diccionario y la entrada son las últimas n palabras que ha visto [2] a partir de ahora. Entonces, desde esta perspectiva, un modelo de lenguaje usa un clasificador basado en palabras para calcular las probabilidades de ver oraciones.

Espero que ayude.

Notas al pie

[1] n-gramo

[2] http://www.jmlr.org/papers/volum