El muestreo negativo se usa como remedio para la polisemia. El ejemplo comúnmente utilizado para resaltar el funcionamiento del algoritmo word2vec es la analogía Hombre: Mujer :: Rey:?. El muestreo negativo entra en juego al encontrar una respuesta a esta analogía. Suponga que su conjunto de entrenamiento constaba del conjunto de datos IMDB. Luego, dada la propensión del conjunto de datos hacia la música y las películas, las palabras con mayor probabilidad de aparecer con ‘Queen’ serían ‘Queen Latifa’, ‘Bohemian Rhapsody’, etc. En este caso, la respuesta del algoritmo a la analogía anterior puede hacer que no sentido. Sin embargo, si los datos de entrenamiento fueran el corpus de Wikipedia, donde es probable que ‘Reina’ aparezca con palabras como ‘Monarca’, ‘Rey’, etc., la respuesta a esta analogía será satisfactoria.
word2vec no está supervisado y se basa en el contexto al determinar la orientación de las palabras en el espacio vectorial. El muestreo negativo refuerza este contexto, es decir, el algoritmo no solo asume que una palabra se basa solo en su contexto inmediato, también asume que dada una palabra de un contexto, ningún otro contexto para esta palabra es relevante. Por ejemplo, cuando los datos de entrenamiento son el corpus de wikipedia, donde hay más documentos sobre política y gramática y semántica en inglés que sobre música, uno esperaría que los vectores de palabras ‘Rey’ y ‘Reina’ sean más similares que ‘Reina’ y ‘Latifa’. Los datos observados también están en la línea de esta creencia, por lo que sus observaciones serían pares de palabras como (Reina, Elizabeth), (Rey, Albert), (Reina, monarca), (Reina, Mujer), (Rey, Hombre) con mayor frecuencia en lugar de pares de palabras como (Queen, Rock), (Queen, Pop), (Queen, Latifa).
Para hacer cumplir esta creencia, el algoritmo intentará maximizar la Probabilidad de ‘Reina’ y ‘Rey’ mientras minimiza la Probabilidad de ‘Reina’ y ‘Latifa’ o ‘Reina’ y ‘Corazones’ o decir cualquier otra palabra al azar. Para minimizar las probabilidades de pares de palabras que tienen menos probabilidades de ocurrir en un conjunto de datos de entrenamiento dado, se realiza un muestreo negativo.
- ¿Cuáles son algunos talleres sobre aprendizaje a gran escala?
- ¿Cuáles son los algoritmos estándar para la inferencia en redes bayesianas?
- ¿Cuáles son algunos de los beneficios del análisis de regresión múltiple?
- ¿Qué caminos puede tomar un ingeniero mecánico para comenzar a trabajar con robótica, aprendizaje automático e inteligencia artificial?
- ¿Cuáles son algunos buenos métodos para explorar datos de alta dimensión?