Leí tus comentarios sobre la maravillosa respuesta de Vvlip. Creo que la Clasificación de secuencia con redes neuronales recurrentes LSTM en Python con Keras – Machine Learning Mastery sería útil para usted.
Si se pregunta si el algoritmo considerará estos dos como diferentes … Le aconsejaría que aprenda la incrustación de los datos en sí y no se preocupe por esto. Si aprende el modelo completo de los datos, obtendrá una mejor integración y una mejor clasificación. Relaciones como estas serán aprendidas por el modelo.
También puede intentar promediar los vectores de palabras o doc2vec.
- ¿Qué herramientas usan los científicos de datos para ver y seleccionar datos de archivos CSV?
- ¿Cómo recopilar datos de agricultura en tiempo real para un área específica en India? Quiero hacer un informe del proyecto para mi estudio de ciencia de datos. ¿Cuáles son las fuentes de información que puedo usar?
- ¿En qué industrias se requiere Big Data?
- Cómo elegir un algoritmo de minería de datos al minar un conjunto de datos real
- ¿Cuáles son las tecnologías subyacentes de big data?
Ps: – Sí, tienes razón al decir que esto no depende del idioma. La razón por la que recomiendo keras es que tiene un buen marco para aprender el modelo completo; de lo contrario, tendrá que pasar de una implementación basada en gensim (gensim: modelado de temas para humanos). El tutorial de dominio de ML que mencioné tiene una buena explicación. Por supuesto, podría aprender incrustaciones de palabras y luego usarlo con cualquier modelo de sklearn, pero en general si tiene más datos … aprenda las incrustaciones y el modelo completamente de los datos. de esa manera terminas con mejores características (incrustaciones) y mejores resultados de clasificación. He intentado el enfoque gensim + sklearn. Keras funciona mejor, déjame saber lo que funciona para ti.