¿Puedo usar word2vec para entrenar un clasificador de aprendizaje automático?

Sí tu puedes. word2vec aprende un vector descriptivo (“incrustación”) para cada palabra en el vocabulario, de modo que palabras similares terminan con vectores similares. Si el vocabulario utilizado en los tweets es muy diferente del “texto de noticias” estándar (es decir, texto limpio como el que se encuentra en Wikipedia), entonces podría entrenar sus propias incrustaciones en un corpus representativo hecho de tweets. De lo contrario, solo use las incrustaciones previamente capacitadas que están disponibles para descargar en línea.

Para clasificar los tweets utilizando los algoritmos de ML más populares, necesitaría crear un vector de características para cada uno de los tweets. Una forma sencilla de hacerlo sería resumir (o promediar) los vectores de incrustación para cada palabra en el tweet, en términos de componentes. El vector resultante sería su representación de características para ese tweet que luego puede usar como entrada para el algoritmo de ML que elija.

Tenga en cuenta que esta representación también es una representación de “bolsa de palabras” (ya que la operación de suma / promediación es invariante al orden y, por lo tanto, pierde el orden de las palabras). Pero sería un buen comienzo antes de intentar métodos más complicados.

Sí, es posible y recomendable si le preocupa sobre todo el rendimiento de la generalización del algoritmo.

La salida word2vec se puede usar como una entrada de clasificador ML para crear un estimador más robusto, mejor en generalización para nuevos patrones para casos de uso típicos.

Usaría la versión preformada de word2vec para crear las incrustaciones de entrada.

La respuesta de Stephan ya lo capta: las incrustaciones de palabras se pueden usar para representar oraciones en un clasificador de oraciones.

Un problema con los tweets es la enorme cantidad de errores ortográficos, por lo que las incrustaciones de palabras generadas por fasttext pueden ser una mejor opción que las incrustaciones de word2vec porque Fasttext Enriquece los vectores de palabras con información de subword se basa en el modelo de Word2vec y enriquece una palabra con información de subword desde el carácter n -gramos.

Por ejemplo,

  • Una palabra simple como dormir está mal escrita a propósito para su efecto como sueño, sueño, etc. en tweets. Word2vec trataría cada ortografía como una palabra separada, lo cual puede estar bien si hay suficientes datos de capacitación para que Word2vec los considere todos, pero dada una pequeña cantidad de texto en los tweets, puede que no haya suficientes recuentos de palabras mal escritas y suficiente contexto para considerarlas. Todo relacionado.
  • Además, clasificar un nuevo tweet con palabras mal escritas aumenta los casos de vocabulario y reduce la precisión de la clasificación.

En resumen, combinar el enfoque de Stephan con la incorporación de texto rápido en lugar de las incorporaciones generadas por Word2vec puede producir mejores resultados. Si no hay muchos datos de tweets para el entrenamiento, entonces se podría agregar Wikipedia como base en el proceso de capacitación.

Por ejemplo, aquí hay algunas capturas de pantalla de ejemplo para encontrar tweets similares a una cadena de texto de entrada, realizada hace unos meses. Las incrustaciones se realizaron con Fasttext y los vectores se sumaron para una oración exactamente como Stephan menciona en su respuesta. Wikipedia se agregó como un conjunto base para agregar más palabras y fortalecer los vectores en el entrenamiento: los datos de entrenamiento de los tweets eran demasiado pequeños para aprender incrustaciones de palabras. El tweet relacionado para el segundo texto de entrada es notable: ese primer resultado relacionado divertido pero notable sucedió debido al corpus de Wikipedia utilizado en los datos de entrenamiento base junto con los datos de entrenamiento del tweet: Wiki ayudó a unir a Feynman y la física, y fiel al espíritu del tweet lenguaje mundial ( y en gran parte, intelecto también quizás ) una oración con improperio mal escrito que se etiqueta alegremente fue empujada cerca en la distancia del coseno al texto de entrada …

Ejemplo 1. Tenga en cuenta que el texto de entrada está mal escrito, pero produce resultados relacionados razonables

Ejemplo 2. La oración de entrada no es un tweet, solo una oración de entrada de prueba.

Tanto Word2vec como fasttext son modelos independientes del orden de las palabras, a diferencia de los modelos de secuencia como los RNN.

More Interesting

En una máquina de vectores de soporte, el número de vectores de soporte puede ser mucho menor que el conjunto de entrenamiento. ¿Cómo puede ser útil esta característica?

¿Cuándo debo usar un autoencoder frente a un RBM?

¿Cómo aprendiste Machine Lerning?

¿Cuál es la intuición detrás de la propagación hacia atrás?

¿Qué te emociona del futuro del aprendizaje automático?

¿Es posible guardar el estado de una red neuronal?

¿Cómo lidiamos con el conjunto de datos que tiene 3 variables categóricas de 10 variables usando regresión logística?

¿Qué implementaciones de la capa convolucional utiliza la biblioteca CuDNN para optimizar el rendimiento de la velocidad? Por ejemplo, ¿cambia entre implementaciones dependiendo del tamaño del filtro?

¿Qué opinas sobre la inteligencia artificial? ¿Vale la pena desarrollarla?

Soy maestra de preescolar pero estoy muy interesado en las máquinas y quiero comenzar un aprendizaje adecuado. ¿Donde debería empezar?

¿Cuáles son algunos de los mejores programas de posgrado de aprendizaje automático que no requieren un título universitario de CS?

¿Cuál es el mejor artículo para entender cómo se mapea el vector de salida de RNN con un vocabulario para predecir la secuencia?

Cómo adaptar el filtrado colaborativo para un sistema de recomendación si solo tiene datos de compra a nivel de pedido y no datos a nivel de usuario

¿Cuál es una explicación intuitiva de las expectativas de la correlación Radamacher?

¿Cómo se aplica la validación cruzada a la regresión logística? Quiero evaluar la precisión de un modelo de regresión logística en un conjunto de datos.