Cómo calcular la probabilidad de que una oración aparezca en algún lugar del texto usando Word2Vec

Comencemos con una forma abstracta. Supongamos que necesito calcular la probabilidad de una palabra en una oración. Uno podría simplemente ejecutar el modelo de cadena de Markov o algún modelo de probabilidad condicional para determinar la probabilidad de la palabra en una oración.

Un modelo word2vec determina la probabilidad de previsibilidad de una palabra dada (palabra objetivo), con respecto a sus palabras circundantes (skip-gram) o deja que las palabras circundantes (CBOW) decidan la probabilidad de la palabra objetivo. Los valores de probabilidad generados por la función softmax son puramente sintácticos y no semánticos o secuenciales. Por secuencial, quiero decir, la probabilidad de la palabra objetivo se genera al comprender la secuencia de la palabra en la oración. Entonces, estoy de acuerdo con Leonid Boytsov (indefinido), que word2vec no puede generar la probabilidad de aparición de la oración en el documento ya que word2vec no es un modelo generativo como lo son los modelos de Markovian.

Pero, las siguientes cosas son ciertas para word2vec:

1. Genera la probabilidad de la palabra objetivo de ambos modelos: CBOW y Skip-gram.

2. Lee oraciones del corpus de entrenamiento para generar estos vectores de valores de probabilidad.

Entonces, al final del entrenamiento modelo, tienes un vocabulario de palabras y sus vectores. Posiblemente, se podrían usar estos vectores de palabras para la probabilidad de las oraciones en el corpus promediando la probabilidad entre los vectores de palabras y entre palabras. (Este enfoque puede probarse y uno podría tomar un enfoque basado en la frecuencia o en un modelo generativo como línea de base para comparar los resultados).

Se puede realizar una lista de experimentos para ver si funciona bien:

1. Conservar o eliminar: palabras vacías o artículos.

2. ¿Qué pasa si generamos la probabilidad de la oración usando solo las frases sustantivas en el corpus? (Etiquetado POS)

Alguna literatura útil en la línea de word2vecc sería Doc2vec o Paragraph2vec.

Espero que responda tus preguntas.

Hasta donde sé, el modelo de Word2Vec no es un modelo de lenguaje, Word2Vec usa un método de aprendizaje discriminativo (en lugar de uno generativo que normalmente se usaría para calcular la probabilidad de datos). Específicamente, predice solo una probabilidad condicional de un contexto dado una palabra media (en SKIPGRAM) y la palabra media dado el contexto (en CBOW).

Sin embargo, ¿cómo se obtiene la probabilidad de la palabra media? Ok, imagine que también recopiló algunas estadísticas de corpus. ¿Cómo se combinan las probabilidades condicionales en una sola probabilidad de encontrar una oración?

More Interesting

¿Son todos los problemas de programación cuadrática convexos?

¿Qué carrera es mejor, Machine Learning o DevOps?

Tengo una entrevista telefónica técnica para una pasantía la próxima semana con el aprendizaje automático y el equipo de fraude de Uber. ¿Debo esperar DS y algoritmos generales o algo más?

¿Cuáles son los pros y los contras de aprender ExpressJS?

¿Wesleyan tiene un buen departamento de química / bioquímica?

Como desarrollador web junior sin una sólida base matemática, ¿qué enfoques debo tomar para dominar el aprendizaje automático y aplicarlo al mundo empresarial? Acabo de empezar a estudiar la "Introducción al álgebra lineal" de Gilbert Strang.

¿Qué tan buenos son los conjuntos de datos SIG en India (por ejemplo, red de carreteras / calles, parcelas municipales, etc.)? ¿Cuáles son las fuentes para este tipo de conjuntos de datos?

¿Qué algunos documentos sobre desafíos en predicción financiera con técnicas de aprendizaje automático?

¿Cuáles son los principales niveles de clasificación de reclusos?

¿Hay algún instituto que ofrezca aprendizaje automático?

¿Cuál es la diferencia (o relación) entre el aprendizaje profundo y un sistema inteligente?

¿Cuál es la diferencia entre 'Inferencia' y 'Estimación del modelo' en los documentos de LA?

¿Qué es el filtrado colaborativo en términos simples?

Si solo aumento el número de capas de Neural Net simple con alguna función de activación, ¿lo convierte en Deep Learning?

¿Cuál es la relación entre economía y ciencia de datos?