Sí tu puedes. word2vec aprende un vector descriptivo (“incrustación”) para cada palabra en el vocabulario, de modo que palabras similares terminan con vectores similares. Si el vocabulario utilizado en los tweets es muy diferente del “texto de noticias” estándar (es decir, texto limpio como el que se encuentra en Wikipedia), entonces podría entrenar sus propias incrustaciones en un corpus representativo hecho de tweets. De lo contrario, solo use las incrustaciones previamente capacitadas que están disponibles para descargar en línea.
Para clasificar los tweets utilizando los algoritmos de ML más populares, necesitaría crear un vector de características para cada uno de los tweets. Una forma sencilla de hacerlo sería resumir (o promediar) los vectores de incrustación para cada palabra en el tweet, en términos de componentes. El vector resultante sería su representación de características para ese tweet que luego puede usar como entrada para el algoritmo de ML que elija.
Tenga en cuenta que esta representación también es una representación de “bolsa de palabras” (ya que la operación de suma / promediación es invariante al orden y, por lo tanto, pierde el orden de las palabras). Pero sería un buen comienzo antes de intentar métodos más complicados.
- ¿Cómo funciona el refuerzo con los algoritmos de clasificación del árbol de decisión?
- ¿Qué debo usar para el aprendizaje automático si necesito una solución rápida: Python, R o SAS?
- Cómo aprender los conceptos básicos del aprendizaje automático dentro de una semana para una entrevista de trabajo
- ¿Es posible que, en el futuro, los países sean manejados por una súper computadora que calcule el mejor resultado de una decisión política?
- ¿Cómo seleccionaría los datos para capacitar y probar los modelos?