¿Dónde puedo ir para averiguar cómo extraer características de un documento de texto para usar en el entrenamiento de un clasificador?

La generación de características es un aspecto IMPORTANTE para cualquier problema de clasificación. Por lo tanto, aparte de las siguientes opciones, uno debe aplicar el conocimiento específico del dominio para ajustar las características adecuadas para la clasificación

Basado en la frecuencia del término en un documento dado. A medida que ocurren más, mayores son las posibilidades de llegar a las funciones (excepto las palabras vacías). Este enlace proporcionaría una implementación de Python de la misma. Tutoriales de programación de Python
Convierte tu texto en vectores de características usando Gensim de Radim. Aquí está el enlace gensim: modelado de temas para humanos
Mi método favorito es tf-idf. Cree la matriz tf-idf y seleccione las N características más comunes. Aquí está la implementación sklearn.feature_extraction.text.TfidfVectorizer – documentación de scikit-learn 0.17.1

También hay enlaces sobre la implementación R de los métodos anteriores que se pueden encontrar fácilmente en Google.

Related Content

¿Qué es mejor para una implementación de juego de 20 preguntas, redes neuronales o árboles de decisión?

¿Cuáles son los principales desafíos en el aprendizaje semi-supervisado?

¿Aprendizaje automático para predecir valores para t + 1?

Dada una serie de datos de tiempo para la construcción de modelos, ¿cómo divido el conjunto de datos en muestras de capacitación y validación?

¿Cuáles son las suposiciones hechas por los modelos ocultos de Markov?

Cómo hacer un bot que pueda abrir cbseresults.nic.in y obtener el resultado

Qué rama es mejor en THAPAR UNIVERSITY: Computer Science Core (COE) o Hons. ¿En el aprendizaje automático y el análisis de datos (CML)?

More Interesting

¿Qué herramientas estadísticas se necesitan para la extracción de características y el reconocimiento de patrones en el procesamiento de imágenes?

¿Cuál debería ser el plan adecuado para aprender el aprendizaje automático desde cero para un estudiante del tercer semestre?

¿Cuáles son los posibles remedios si está atascado en la comprensión de la parte técnica de un trabajo de investigación de STEM?

¿Cuál es el mejor lenguaje de programación para implementar algoritmos de aprendizaje automático?

Cómo configurar una instancia de AWS GPU para aprender el aprendizaje automático

¿El éxito de un algoritmo particular causa una lentitud de progreso en el desarrollo de mejores algoritmos?

¿Qué se considera estado de arte para la traducción automática neuronal?

¿Cuál es la diferencia entre Hadoop y Teradata aster?

¿Es posible entrenar una red neuronal para resolver VRPTW usando un algoritmo de abejas modificado?

¿Por qué la devolución [matemáticas] G_t = R_ {t + 1} + \ gamma R_ {t + 1} + \ cdots [/ matemáticas] tiene la recompensa del siguiente paso?

¿Cuál es la definición de un 'prior bayesiano'?

¿Cómo afectará el aprendizaje automático al mundo para 2030?

¿Por qué hay una compensación entre exploración y explotación en el aprendizaje por refuerzo?

Sistemas de bases de datos: ¿Qué formatos de datos se utilizan para almacenar series de tiempo?

¿Cuáles son las formas en que el científico de datos indio que actualmente trabaja en una empresa de aprendizaje automático con sede en India inmigra a los Estados Unidos?

Web Analytics