Word2vec: ¿Cómo puede el método de entrenamiento jerárquico soft-max de CBOW garantizar su autoconsistencia?

La autoconsistencia del softmax jerárquico deriva del hecho de que P (w | h), es decir, la probabilidad de observar la palabra w en el contexto de las palabras h, define un modelo probabilístico normalizado sobre todos los resultados, es decir, [matemática] \ sum_ { w_i \ en V} P (w_i | h) = 1 [/ matemáticas]. Intuitivamente, esto significa que una cantidad fija de masa de probabilidad total se distribuye entre todos los resultados posibles [matemáticas] w_i \ en V [/ matemáticas] (todas las palabras que pueden observarse en ciertos contextos), y hacer que un resultado sea más probable necesariamente disminuye el probabilidad de que otro resultado sea cierto.

Para ver esto, recuerde que el softmax jerárquico binario define P (w | h) como un producto de probabilidades P (q_i | h) en una ruta [matemática] q_i \ en L (w) [/ matemática] desde la raíz de un árbol binario a un nodo hoja que representa la palabra w, es decir, [matemática] P (w | h) = \ prod_ {q_i \ en L (w)} P (q_i | h) [/ matemática]. Cada predicción en el camino representa la probabilidad de que la palabra w se encuentre a la izquierda (q_i = 0) o a la derecha (q_i = 1) del nodo i . Podemos demostrar que esto define una distribución de probabilidad normalizada mediante el uso del siguiente argumento informal por inducción estructural sobre el árbol, y haciendo referencia al árbol de ejemplo a continuación:

Mi notación aquí es que [math] \ rho_i [/ ​​math] representa la masa de probabilidad restante total en el nodo i , comenzando con [math] \ rho_0 = 1 [/ math] en el nodo raíz, y debemos mostrar que la suma de todos los rho en los nodos hoja (las palabras w) suman 1. Para hacer esto, considere el caso base donde tenemos un árbol con solo un nodo raíz y dos nodos hoja. Como las decisiones de ramificación en cada nodo deben sumar una, es decir, [matemática] P (q_i = 0 | h) + P (q_i = 1 | h) = 1 [/ matemática], es fácil ver que las probabilidades (rho) en la hoja, los nodos suman 1 (por definición). Al aplicar esta lógica de forma recursiva, dividiendo en cada nodo i en el árbol la masa de probabilidad restante [math] \ rho_j [/ math] recibida de su nodo padre j de acuerdo con las probabilidades de ramificación P (q_j | h), podemos ver que la suma de todas las probabilidades residuales del nodo hoja debe sumar una, es decir, [matemática] \ sum_ {w_i \ en V} P (w_i | h) = 1 [/ matemática], y por lo tanto el softmax jerárquico define una distribución de probabilidad normalizada sobre todo palabras.

Ahora, para responder a su pregunta, recuerde que esta distribución se parametriza en términos de los vectores de palabras (y nodos), y luego se entrena utilizando la máxima probabilidad de obtener las probabilidades correctas en algún conjunto de entrenamiento, pero la autoconsistencia del modelo aún se mantiene. Por lo tanto, cuando presenta un modelo entrenado con un vector de palabras (en algún contexto), obtendrá la probabilidad de probabilidad máxima de esa palabra en los datos de entrenamiento que se usaron para entrenar el modelo y, por lo tanto, obtendrá la palabra “correcta” como predicción con la mayor probabilidad.