¿Cuál es la relación de la función objetivo de muestreo negativo con la función objetivo original en word2vec?

El muestreo negativo se usa como remedio para la polisemia. El ejemplo comúnmente utilizado para resaltar el funcionamiento del algoritmo word2vec es la analogía Hombre: Mujer :: Rey:?. El muestreo negativo entra en juego al encontrar una respuesta a esta analogía. Suponga que su conjunto de entrenamiento constaba del conjunto de datos IMDB. Luego, dada la propensión del conjunto de datos hacia la música y las películas, las palabras con mayor probabilidad de aparecer con ‘Queen’ serían ‘Queen Latifa’, ‘Bohemian Rhapsody’, etc. En este caso, la respuesta del algoritmo a la analogía anterior puede hacer que no sentido. Sin embargo, si los datos de entrenamiento fueran el corpus de Wikipedia, donde es probable que ‘Reina’ aparezca con palabras como ‘Monarca’, ‘Rey’, etc., la respuesta a esta analogía será satisfactoria.

word2vec no está supervisado y se basa en el contexto al determinar la orientación de las palabras en el espacio vectorial. El muestreo negativo refuerza este contexto, es decir, el algoritmo no solo asume que una palabra se basa solo en su contexto inmediato, también asume que dada una palabra de un contexto, ningún otro contexto para esta palabra es relevante. Por ejemplo, cuando los datos de entrenamiento son el corpus de wikipedia, donde hay más documentos sobre política y gramática y semántica en inglés que sobre música, uno esperaría que los vectores de palabras ‘Rey’ y ‘Reina’ sean más similares que ‘Reina’ y ‘Latifa’. Los datos observados también están en la línea de esta creencia, por lo que sus observaciones serían pares de palabras como (Reina, Elizabeth), (Rey, Albert), (Reina, monarca), (Reina, Mujer), (Rey, Hombre) con mayor frecuencia en lugar de pares de palabras como (Queen, Rock), (Queen, Pop), (Queen, Latifa).

Para hacer cumplir esta creencia, el algoritmo intentará maximizar la Probabilidad de ‘Reina’ y ‘Rey’ mientras minimiza la Probabilidad de ‘Reina’ y ‘Latifa’ o ‘Reina’ y ‘Corazones’ o decir cualquier otra palabra al azar. Para minimizar las probabilidades de pares de palabras que tienen menos probabilidades de ocurrir en un conjunto de datos de entrenamiento dado, se realiza un muestreo negativo.

More Interesting

En problemas de optimización matemática, a menudo se usa la primera derivada. ¿Por qué no el segundo, o derivados de orden superior?

¿Cuáles son los cursos necesarios para aprender la recuperación de información y el aprendizaje automático?

¿De dónde viene el gráfico en una red bayesiana?

¿Qué significa la siguiente imagen de un gráfico en Theano?

¿Cuáles son algunas optativas de matemáticas avanzadas útiles para un estudiante universitario en CS (junior) que se inclina hacia el aprendizaje automático para la escuela de posgrado?

Los algoritmos de ML escritos en Java funcionan bien para un conjunto de datos más pequeño. Para un conjunto de datos grande, ¿cómo podemos escalar estos algoritmos? ¿Necesitamos buscar algoritmos distribuidos / mapas distribuidos en memoria / NOSQL / archivos para leer y escribir grandes conjuntos de datos o hay alguna buena API?

Cómo medir la incertidumbre o dar medidas de intervalo de confianza junto con un modelo de red neuronal existente

Si pudieras elegir cinco miembros perfectos para un equipo de desarrollo de aprendizaje automático y en la nube, ¿qué habilidades requerirías que tuvieran?

¿Por qué todavía necesitamos aprender Minería de datos cuando tenemos Mahout?

¿Cuál es el estándar de JMLR contra documentos en ICML y NIPS?

Cómo hacer una biblioteca en ML como Tensorflow

¿Por qué se hace referencia a la validación como 'dev' en algunos ejemplos de programas de aprendizaje automático?

Visión por computadora: ¿Cuáles son los problemas abiertos para la recuperación de imágenes?

Serie temporal: ¿Existe un enfoque para la detección de anomalías que no se base en datos de entrenamiento anteriores?

¿Qué es la divergencia contrastante?