No puedo abrir el enlace al documento de 2002 … aunque esto es tan antiguo que lo ignoraría
Primero , probablemente no tenga suficientes datos para usar la bolsa de palabras (BOW) y obtener buenos resultados. Por lo general, quiere decir 10 millones de preguntas, como se explica en
LibShortText: una biblioteca para clasificación y análisis de texto corto
- ¿Cuáles son los principales niveles de clasificación de reclusos?
- ¿Qué requisitos previos debe tener para aprender la teoría de las redes neuronales artificiales?
- ¿Existe algún proyecto de código abierto que implemente algoritmos de aprendizaje profundo que aproveche la enorme potencia informática paralela de la GPU?
- ¿Cuál es el atractivo de Python para ML y aplicaciones científicas en general?
- ¿Cómo debe planificar un estudiante de CS su primer verano?
que es un SVM que usa funciones bigram
(Aunque un enfoque más moderno, para conjuntos de datos muy grandes, podría ser FB FastText facebookresearch / fastText)
Para un conjunto de datos muy pequeño, necesita una representación semántica de las palabras. Es posible que pueda usar vectores de guantes ‘promediados’ como características, aunque no me he impresionado mucho con esto
Vectores globales para la representación de palabras
Podría usar una red neuronal recurrente, con vectores de guantes integrados
Uso de incrustaciones de palabras pre-entrenadas en un modelo Keras