Dos pensamientos:
- Su enfoque parece un poco el aprendizaje automático a mano. Es genial tener la intuición y la capacidad de obtener resultados bastante buenos de esta manera, pero muchas personas han trabajado en la clasificación de documentos. Usar su trabajo le ahorrará mucho tiempo y dolores de cabeza. Parece que estás usando Python, por lo que te recomiendo scikit-learn: aprendizaje automático en Python. Puede cargar sus datos, estableciendo los recuentos de palabras como las variables X y la categoría como Y, y ver cómo funcionan los diversos algoritmos de aprendizaje supervisado en su tarea. No me sorprendería si un SVM lineal funciona bastante mejor.
- Los pesos de características a veces pueden ser muy importantes. Si está utilizando el recuento de palabras, considere cambiarlo a TF-IDF. Es posible que, dado que el “juego” se utilizará en muchas categorías diferentes y, por lo tanto, en muchos documentos, tendrá un bajo peso con TF-IDF. Eso alentará al algoritmo de aprendizaje a mirar otras palabras para obtener su información, lo que puede facilitar la clasificación si está utilizando ciertos tipos de clasificadores. Con otros tipos, esto no hará ninguna diferencia.