¿Cómo funciona el muestreo negativo en los modelos de Word2vec?

La función Softmax requerida para normalizar las probabilidades de vectores de palabras para una palabra dada implica la normalización de todo el vocabulario. Esto es computacionalmente prohibitivo en la mayoría de las aplicaciones del mundo real, por lo tanto, se utiliza muestreo negativo. Intuitivamente, esto se puede dividir en una parte “positiva” y “negativa”.

El objetivo de muestreo negativo que se maximiza para word2vec es el siguiente:

[matemáticas] log \ sigma (v_I ^ Tv_o) + \ sum_ {i = 1} ^ k E_ {w_i -> P_v} [\ sigma (-v_ {w_i} ^ Tv_ {w_I})] [/ math]

Tenga en cuenta que

[matemáticas] \ sigma (-x) = 1- \ sigma (x) [/ matemáticas]

Esto significa que la parte positiva que modela la probabilidad de que la palabra coexista con la palabra de salida se está maximizando. La parte negativa está tratando de minimizar la probabilidad esperada de que una palabra aleatoria coexista con la palabra de entrada, maximizando 1: la probabilidad de hacer exactamente eso.

Esta es la mayor intuición detrás del muestreo negativo y proviene de la estimación contrastante de ruido que dice que un buen modelo debería ser capaz de distinguir los datos del ruido. La parte negativa de esta ecuación modela el ruido en cierto sentido.

Eche un vistazo al Tutorial de Word2Vec Parte 2 – Muestreo negativo y word2vec: muestreo negativo (en términos simples).

More Interesting

¿Puedo usar el algoritmo de aprendizaje automático en mi proyecto de investigación aunque no soy un experto en él?

¿Qué significa 'alineado suavemente' en un contexto de aprendizaje profundo?

¿Cómo se elige una función de activación? He notado que las funciones más utilizadas se parecen, especialmente cerca de 0. ¿Tienen que ajustarse a algún comportamiento específico? ¿Es este un tema de investigación abierto? ¿Hace una gran diferencia en los resultados?

¿Cómo puede un estado en el aprendizaje por refuerzo tener dos valores? Por ejemplo, como en el blackjack donde el as es 1 u 11.

¿Cómo se puede modelar la interacción Radar y Jammer a través del aprendizaje automático?

¿Cómo entrenamos un clasificador para el cual solo tenemos: 1) un conjunto de datos que son datos de entrenamiento explícitamente positivos y 2) un conjunto de datos que se desconoce (tiene el potencial de ser positivo o negativo)?

¿El error de clasificación de las redes neuronales se denomina "tasa de error"?

¿Qué enfoque se recomienda para aprender Machine Learning?

¿Qué tipos de trabajos están disponibles en la industria financiera para un máster en ML / AI graduado?

¿Qué técnicas son útiles para las series de tiempo financieras de minería de datos?

¿Las redes neuronales artificiales pueden modelar interacciones multiplicativas?

¿Debería haber una relación específica entre el número de características y el número de clases? Si tengo 15 funciones pero 50 clases con 1000 datos de entrenamiento, ¿tendré un problema de sobreajuste? ¿Y cuál es la mejor técnica de clasificación para esta relación?

¿A qué se refiere el concepto de sesgo de presentación-retroalimentación en el contexto del aprendizaje automático?

¿Por qué a veces vanilla SGD y Momentum superan a los optimizadores como AdaDelta en el aprendizaje profundo?

Cómo comenzar a aprender sobre redes neuronales y conceptos de aprendizaje automático y ponerlos en uso en la vida real sin conocer las matemáticas avanzadas