El problema aquí no es cómo clasificar sino QUÉ clasificar. Que es una palabra ¿Cómo representas palabras?
Te recomiendo que uses Word2Vec y luego tal vez ni siquiera necesites un clasificador.
Su problema está relacionado con la semántica de las palabras y word2vec es excelente para eso.
- ¿Puedo usar el algoritmo de aprendizaje automático en mi proyecto de investigación aunque no soy un experto en él?
- Cómo hacer una selección y clasificación de características adecuadas en datos dispersos de alta dimensión y altamente desequilibrados
- ¿Es la informática de alto rendimiento un conocimiento esencial para el aprendizaje profundo dado que se trata de una gran red neuronal?
- ¿Cuántas personas en el mundo son expertos en aprendizaje profundo para visión por computadora?
- Si se le da una opción entre el aprendizaje automático y el Internet de las cosas como una opción, ¿cuál es la mejor para elegir, teniendo en cuenta el alcance y el futuro?
En word2vec obtienes un vector para cada palabra, palabras similares tienen vectores similares y muchas propiedades algebraicas entre vectores también se mantienen entre palabras. Por ejemplo, puede obtener palabras similares a “crema” y encontrar “mantequilla”, “leche” o Dios no permita “margarina”.
Las palabras no relacionadas con la comida estarán lejos de las palabras de la comida, serán muy fáciles de filtrar con WordVec.
Para clasificar sus palabras de comida en categorías, puede ejecutar un clasificador o un algoritmo de agrupamiento.
Puede buscar word2vec y encontrar vectores ya calculados para palabras o puede ejecutar word2vec usando gensim (Python) sobre su propio corpus.
Luis