La forma más fácil es filtrando palabras poco frecuentes. Puede lograr esto estableciendo argumentos de entrada de la siguiente manera [1]:
-
min_df
: para ignorar los términos que tienen una frecuencia de documento inferior amin_df
. Si flotante, el parámetro representa una proporción de documentos, recuentos enteros absolutos. -
max_features
: para considerar solo las principalesmax_features
ordenadas por frecuencia de término en todo el corpus. Esto es útil si tiene un límite estricto en el tamaño de las características transformadas TF-IDF (por ejemplo, hasta 100,000 características TF-IDF).
Cuando se trata de un corpus relativamente grande, usar min_df
de 5, 10 o 50 reduce significativamente el tamaño del vocabulario mientras se mantiene (o a menudo mejora) la precisión.
Notas al pie
- ¿Vale la pena un doctorado en CS si no planea ingresar a la academia?
- Al cambiar de plataforma, ¿cómo se debe planificar con anticipación para garantizar que el almacenamiento y el análisis de datos se mantengan rápidos y eficientes?
- ¿Dónde estará (o podría) estar el Aprendizaje Profundo si la Ley de Moore continúa por otros 10-20 años?
- ¿En qué se diferencia el método de agrupamiento en el aprendizaje automático de disparar una consulta SQL 'select' para agrupar personas u objetos? ¿Cuáles son las diferencias y necesidades reales?
- ¿Cuáles son algunos buenos documentos con ejemplos del mundo real del aprendizaje de refuerzo inverso (IRL)?
[1] sklearn.feature_extraction.text.TfidfVectorizer – documentación de scikit-learn 0.18.2