La generación de características es un aspecto IMPORTANTE para cualquier problema de clasificación. Por lo tanto, aparte de las siguientes opciones, uno debe aplicar el conocimiento específico del dominio para ajustar las características adecuadas para la clasificación
- Basado en la frecuencia del término en un documento dado. A medida que ocurren más, mayores son las posibilidades de llegar a las funciones (excepto las palabras vacías). Este enlace proporcionaría una implementación de Python de la misma. Tutoriales de programación de Python
- Convierte tu texto en vectores de características usando Gensim de Radim. Aquí está el enlace gensim: modelado de temas para humanos
- Mi método favorito es tf-idf. Cree la matriz tf-idf y seleccione las N características más comunes. Aquí está la implementación sklearn.feature_extraction.text.TfidfVectorizer – documentación de scikit-learn 0.17.1
También hay enlaces sobre la implementación R de los métodos anteriores que se pueden encontrar fácilmente en Google.
- ¿Cómo se pueden usar los modelos ocultos de Markov para reconocer la escritura cursiva?
- ¿Existe algún proyecto de datos abiertos que utilice el aprendizaje automático y la ciencia de datos para proporcionar información sobre los datos de incidentes de aplicación de la ley disponibles públicamente?
- ¿Cómo uso la regresión logística si la variable dependiente tiene más de 2 dimensiones?
- ¿Por qué la pérdida logística es una mejor métrica para la clasificación probabilística que RMSD?
- ¿Cuándo debo usar inferencia variacional versus maximización de expectativas para ajustar un modelo de mezcla gaussiana?