¿Cuál es el tamaño mínimo de corpus para entrenar incrustaciones de palabras?

No existe un mínimo real: se puede entrenar un corpus de juguete del tamaño de unas 40 palabras únicas y con la elección correcta de parámetros ( para un corpus único de 40dimensión / tamaño – aproximadamente 10, iteraciones> = 20, y si el muestreo es negativo se utiliza el tamaño de la muestra: entrenamiento de ventana de 1; 5 palabras ) todavía se ven algunas propiedades interesantes capturadas en las incrustaciones, que generalmente se ve con un gran corpus.

Por ejemplo, con un corpus de juguete como este

se pueden ver resultados que tienen propiedades interesantes como el vecindario para perros en los siguientes programas (los perros nunca coinciden con mamíferos o humanos, pero aún los tienen en el top 10 antes de palabras como mascotas que realmente ocurren con perros )

Ahora, si sospechamos que son los gatos los que acercan a los mamíferos a los perros, podemos verificar que cambiando los gatos a gatos monteses y el cambio confirma que, efectivamente, fueron los gatos los que acercaron a los mamíferos a los perros.

Del mismo modo, podemos verificar que son las mascotas las que compraron perros cercanos a los humanos cambiando la palabra mascota en la primera línea a animales y viendo cómo cambia el vecindario.

No podemos esperar encontrar un cambio tan dramático en el vecindario cambiando solo una palabra en un corpus grande: el corpus pequeño lo permite porque el bajo número de palabras hace que algunas palabras funcionen como “cortar vértices / puntos de articulación en el gráfico de influencia generado de los términos que aparecen dentro de la ventana de capacitación ”: en un corpus grande, muchas palabras juntas influyen en la vecindad de una palabra.

En resumen, incluso un corpus de juguete puede darnos algunas ideas que requieren más esfuerzo para obtener un corpus más grande.

Un corpus como el que viene con la descarga de word2vec ( text8 ) tiene aproximadamente 250K palabras únicas y tiene muy buenas incorporaciones con una gran relación semántica capturada en ellas con otras palabras en corpus.

Referencia

¿Cómo funciona word2vec?