¿Podemos usar GridSearchCV () en CountVectorizer () cuando usamos modelos scikit-learn en datos de texto, o la búsqueda en cuadrícula solo se puede ejecutar en los modelos predictivos?

GridSearchCV necesita una métrica para optimizar. Un vectorizador no tiene nada como una precisión, por lo que no tiene sentido ejecutar ningún tipo de optimización de hiperparámetro en su método de vectorización.

El problema principal es que es imposible saber si un cambio en su vectorizador conducirá a una mayor o menor precisión en su modelo resultante, a menos que mantenga el modelo constante.

Dicho esto, si desea mantener su modelo constante y optimizar su vectorizador desde ese punto de vista, puede crear fácilmente una función de cliente que incorpore kwargs que se pasarán al vectorizador y devolverá las métricas de precisión adecuadas.

Alternativamente, puede crear una función que tome un vectorizador como un kwarg, luego generar varias muestras con anticipación y luego simplemente agregarlas al argumento de parámetros que está pasando a GridSearchCV

More Interesting

¿Hay orden entre las características de las incrustaciones de palabras?

¿Qué habilidades de programación / habilidades informáticas debo aprender si quiero especializarme en visión por computadora y aprendizaje automático?

¿Por qué el aprendizaje automático a menudo perpetúa el sesgo?

¿El CAPM está muerto, en el sentido de que el aprendizaje automático moderno y el modelado financiero han hecho que su aplicación en el mundo real sea redundante?

¿Existe una relación entre la detección comprimida y las redes de yacimientos?

¿Cómo se puede aplicar el aprendizaje profundo a la clasificación de palabras?

Necesito analizar resúmenes de texto en lenguaje humano e identificar los temas mencionados en ellos. ¿Esto cae bajo el reconocimiento de la entidad nombrada?

¿Por qué los jóvenes estudiantes dedican más tiempo a la programación competitiva en lugar de otras áreas como aprendizaje automático, seguridad, big data y sistemas operativos?

¿Cuál es la diferencia entre el aprendizaje probabilístico y el aprendizaje no probabilístico para diferentes situaciones? ¿Cuándo es uno más apropiado que el otro?

¿Son el aprendizaje automático / aprendizaje profundo / ciencia de datos, realmente ciencia espacial para que un tipo promedio entienda e implemente?

¿Cuáles son los modelos actuales de análisis de sentimiento de arte independientemente de la efectividad?

¿La variable de tiempo muestra una conexión recurrente en RNN?

¿Por qué la precisión del entrenamiento de la red CNN aumenta rápidamente cuando elijo un tamaño de lote relativamente más pequeño?

¿Cuáles son algunos buenos libros para principiantes y avanzados sobre redes neuronales e inteligencia artificial?

MLconf 2015 Seattle: ¿Cómo funciona la técnica de aproximación simbólica agregada (SAX)?