¿Puedo usar word2vec para entrenar un clasificador de aprendizaje automático?

Sí tu puedes. word2vec aprende un vector descriptivo (“incrustación”) para cada palabra en el vocabulario, de modo que palabras similares terminan con vectores similares. Si el vocabulario utilizado en los tweets es muy diferente del “texto de noticias” estándar (es decir, texto limpio como el que se encuentra en Wikipedia), entonces podría entrenar sus propias incrustaciones en un corpus representativo hecho de tweets. De lo contrario, solo use las incrustaciones previamente capacitadas que están disponibles para descargar en línea.

Para clasificar los tweets utilizando los algoritmos de ML más populares, necesitaría crear un vector de características para cada uno de los tweets. Una forma sencilla de hacerlo sería resumir (o promediar) los vectores de incrustación para cada palabra en el tweet, en términos de componentes. El vector resultante sería su representación de características para ese tweet que luego puede usar como entrada para el algoritmo de ML que elija.

Tenga en cuenta que esta representación también es una representación de “bolsa de palabras” (ya que la operación de suma / promediación es invariante al orden y, por lo tanto, pierde el orden de las palabras). Pero sería un buen comienzo antes de intentar métodos más complicados.

Aprendizaje automáticoClasificaciónInteligencia ArtificialWord2vec

¿Qué es una explicación intuitiva de la convolución 1 × 1 en ConvNets?

Cómo usar el aprendizaje automático en IoT Hardware Security

¿Qué significa el aprendizaje de características en Machine Learning?

¿Es una exageración aplicar un conjunto de redes neuronales?

En el autoencoder variacional, ¿por qué solo tomamos muestras de variables latentes de un gaussiano estándar y aplicamos el decodificador para generar nuevos datos en las pruebas?

¿Qué es un gran blog para el aprendizaje automático?

Sí, es posible y recomendable si le preocupa sobre todo el rendimiento de la generalización del algoritmo.

La salida word2vec se puede usar como una entrada de clasificador ML para crear un estimador más robusto, mejor en generalización para nuevos patrones para casos de uso típicos.

Usaría la versión preformada de word2vec para crear las incrustaciones de entrada.

Stephan Gouws

La respuesta de Stephan ya lo capta: las incrustaciones de palabras se pueden usar para representar oraciones en un clasificador de oraciones.

Un problema con los tweets es la enorme cantidad de errores ortográficos, por lo que las incrustaciones de palabras generadas por fasttext pueden ser una mejor opción que las incrustaciones de word2vec porque Fasttext Enriquece los vectores de palabras con información de subword se basa en el modelo de Word2vec y enriquece una palabra con información de subword desde el carácter n -gramos.

Por ejemplo,

Una palabra simple como dormir está mal escrita a propósito para su efecto como sueño, sueño, etc. en tweets. Word2vec trataría cada ortografía como una palabra separada, lo cual puede estar bien si hay suficientes datos de capacitación para que Word2vec los considere todos, pero dada una pequeña cantidad de texto en los tweets, puede que no haya suficientes recuentos de palabras mal escritas y suficiente contexto para considerarlas. Todo relacionado.
Además, clasificar un nuevo tweet con palabras mal escritas aumenta los casos de vocabulario y reduce la precisión de la clasificación.

En resumen, combinar el enfoque de Stephan con la incorporación de texto rápido en lugar de las incorporaciones generadas por Word2vec puede producir mejores resultados. Si no hay muchos datos de tweets para el entrenamiento, entonces se podría agregar Wikipedia como base en el proceso de capacitación.

Por ejemplo, aquí hay algunas capturas de pantalla de ejemplo para encontrar tweets similares a una cadena de texto de entrada, realizada hace unos meses. Las incrustaciones se realizaron con Fasttext y los vectores se sumaron para una oración exactamente como Stephan menciona en su respuesta. Wikipedia se agregó como un conjunto base para agregar más palabras y fortalecer los vectores en el entrenamiento: los datos de entrenamiento de los tweets eran demasiado pequeños para aprender incrustaciones de palabras. El tweet relacionado para el segundo texto de entrada es notable: ese primer resultado relacionado divertido pero notable sucedió debido al corpus de Wikipedia utilizado en los datos de entrenamiento base junto con los datos de entrenamiento del tweet: Wiki ayudó a unir a Feynman y la física, y fiel al espíritu del tweet lenguaje mundial ( y en gran parte, intelecto también quizás ) una oración con improperio mal escrito que se etiqueta alegremente fue empujada cerca en la distancia del coseno al texto de entrada …

Ejemplo 1. Tenga en cuenta que el texto de entrada está mal escrito, pero produce resultados relacionados razonables