Gracias por A2A: los modelos de lenguaje pueden considerarse como una colección de muchos clasificadores multiclase (al menos tantos clasificadores como condicionales … aclararé en breve lo que quiero decir).
Un clasificador “probabilístico” en cualquier entorno de aprendizaje automático es algo que asigna probabilidad a las clases dadas la entrada (llamaremos a la entrada condicional ya que, condicionada a ella, usted decide qué clase es más probable). Por lo tanto, si su entrada está representada por ‘X’ y la salida está representada por ‘y’ donde ‘y’ es una de las etiquetas de clase, entonces cualquier clasificador probabilístico trataría de obtener esa ‘y’ que maximiza la probabilidad posterior, es decir:
y * = argmax P (y | X), donde ‘X’ son características e ‘y’ es una de las etiquetas de clase ……… .. (1)
- ¿Funcionan los ventiladores del MacBook Pro cuando la tapa está cerrada / inactiva?
- ¿Por qué una CPU necesita tener una unidad separada para calcular puntos flotantes?
- ¿Cuáles son las historias de fracaso más grandes con respecto a las colocaciones en la universidad que has encontrado?
- ¿Cuál es la diferencia entre las arquitecturas i386 y x86?
- ¿Cómo encriptamos los datos?
Ahora, ¿qué hace un modelo de lenguaje? Dado un cierto contexto de palabras (lo denotaremos por ‘H’ para la historia), trata de encontrar la siguiente palabra más probable (la denotaremos por ‘w’). Por lo tanto, dado el contexto, la siguiente palabra se descubre resolviendo:
w * = argmax P (w | H), donde ‘H’ es el contexto de las palabras y ‘w’ es la siguiente palabra .. (2)
Ahora simplemente cambie la notación y reemplace ‘H’ con ‘X’ y ‘w’ con ‘y’ y esencialmente volverá a la ecuación (1). Entonces, dado algún contexto, un modelo de lenguaje está actuando como un clasificador. Sin embargo, la principal diferencia es que en un modelo de lenguaje debe poder predecir la siguiente palabra dado el contexto “cualquiera”. Esto significa que su modelo de idioma no es más que una colección de muchos clasificadores de clases múltiples. ¿Cuántos clasificadores? Depende de la familia de modelos. Para un modelo de lenguaje de n-gramas con, digamos, n = 3, y tamaño de vocabulario = | V |, su modelo de idioma puede predecir la siguiente palabra para contextos de | V | ^ 2. Por lo tanto, para un modelo de lenguaje n-gram con n = 3, existen al menos esos muchos clasificadores. Si su modelo de idioma es sofisticado, como por ejemplo el Modelo de lenguaje de red neuronal recurrente, entonces la cantidad de contextos y, por lo tanto, la cantidad de clasificadores, son infinitamente contables.
Espero que esto ayude !