Comencemos con una forma abstracta. Supongamos que necesito calcular la probabilidad de una palabra en una oración. Uno podría simplemente ejecutar el modelo de cadena de Markov o algún modelo de probabilidad condicional para determinar la probabilidad de la palabra en una oración.
Un modelo word2vec determina la probabilidad de previsibilidad de una palabra dada (palabra objetivo), con respecto a sus palabras circundantes (skip-gram) o deja que las palabras circundantes (CBOW) decidan la probabilidad de la palabra objetivo. Los valores de probabilidad generados por la función softmax son puramente sintácticos y no semánticos o secuenciales. Por secuencial, quiero decir, la probabilidad de la palabra objetivo se genera al comprender la secuencia de la palabra en la oración. Entonces, estoy de acuerdo con Leonid Boytsov (indefinido), que word2vec no puede generar la probabilidad de aparición de la oración en el documento ya que word2vec no es un modelo generativo como lo son los modelos de Markovian.
Pero, las siguientes cosas son ciertas para word2vec:
- ¿Los grandes ingenieros de aprendizaje automático siempre leen nuevos trabajos de investigación sobre ML?
- Optimización matemática: ¿Por qué el método de descenso más pronunciado usando el descenso de gradiente típico tiene problemas con la función de Rosenbrock?
- ¿Dónde puedo encontrar modelos de temas previamente capacitados para MALLET?
- Soy maestra de preescolar pero estoy muy interesado en las máquinas y quiero comenzar un aprendizaje adecuado. ¿Donde debería empezar?
- ¿Cuál es la diferencia entre la agrupación de texto y la clasificación de texto?
1. Genera la probabilidad de la palabra objetivo de ambos modelos: CBOW y Skip-gram.
2. Lee oraciones del corpus de entrenamiento para generar estos vectores de valores de probabilidad.
Entonces, al final del entrenamiento modelo, tienes un vocabulario de palabras y sus vectores. Posiblemente, se podrían usar estos vectores de palabras para la probabilidad de las oraciones en el corpus promediando la probabilidad entre los vectores de palabras y entre palabras. (Este enfoque puede probarse y uno podría tomar un enfoque basado en la frecuencia o en un modelo generativo como línea de base para comparar los resultados).
Se puede realizar una lista de experimentos para ver si funciona bien:
1. Conservar o eliminar: palabras vacías o artículos.
2. ¿Qué pasa si generamos la probabilidad de la oración usando solo las frases sustantivas en el corpus? (Etiquetado POS)
Alguna literatura útil en la línea de word2vecc sería Doc2vec o Paragraph2vec.
Espero que responda tus preguntas.