¿Dónde puedo ir para averiguar cómo extraer características de un documento de texto para usar en el entrenamiento de un clasificador?

La generación de características es un aspecto IMPORTANTE para cualquier problema de clasificación. Por lo tanto, aparte de las siguientes opciones, uno debe aplicar el conocimiento específico del dominio para ajustar las características adecuadas para la clasificación

  1. Basado en la frecuencia del término en un documento dado. A medida que ocurren más, mayores son las posibilidades de llegar a las funciones (excepto las palabras vacías). Este enlace proporcionaría una implementación de Python de la misma. Tutoriales de programación de Python
  2. Convierte tu texto en vectores de características usando Gensim de Radim. Aquí está el enlace gensim: modelado de temas para humanos
  3. Mi método favorito es tf-idf. Cree la matriz tf-idf y seleccione las N características más comunes. Aquí está la implementación sklearn.feature_extraction.text.TfidfVectorizer – documentación de scikit-learn 0.17.1

También hay enlaces sobre la implementación R de los métodos anteriores que se pueden encontrar fácilmente en Google.

More Interesting

¿Qué herramientas estadísticas se necesitan para la extracción de características y el reconocimiento de patrones en el procesamiento de imágenes?

¿Cuál debería ser el plan adecuado para aprender el aprendizaje automático desde cero para un estudiante del tercer semestre?

¿Cuáles son los posibles remedios si está atascado en la comprensión de la parte técnica de un trabajo de investigación de STEM?

¿Cuál es el mejor lenguaje de programación para implementar algoritmos de aprendizaje automático?

Cómo configurar una instancia de AWS GPU para aprender el aprendizaje automático

¿El éxito de un algoritmo particular causa una lentitud de progreso en el desarrollo de mejores algoritmos?

¿Qué se considera estado de arte para la traducción automática neuronal?

¿Cuál es la diferencia entre Hadoop y Teradata aster?

¿Es posible entrenar una red neuronal para resolver VRPTW usando un algoritmo de abejas modificado?

¿Por qué la devolución [matemáticas] G_t = R_ {t + 1} + \ gamma R_ {t + 1} + \ cdots [/ matemáticas] tiene la recompensa del siguiente paso?

¿Cuál es la definición de un 'prior bayesiano'?

¿Cómo afectará el aprendizaje automático al mundo para 2030?

¿Por qué hay una compensación entre exploración y explotación en el aprendizaje por refuerzo?

Sistemas de bases de datos: ¿Qué formatos de datos se utilizan para almacenar series de tiempo?

¿Cuáles son las formas en que el científico de datos indio que actualmente trabaja en una empresa de aprendizaje automático con sede en India inmigra a los Estados Unidos?