¿Hay una explicación fácil sobre cuándo usar fit y cuándo un fit_transform de sk-learn en Python?

documentación de sklearn:

Estoy tomando un ejemplo de sklearn.feature_extraction.text .CountVectorizer

donde tenemos dos de esas funciones:

  1. fit (raw_documents [, y]) Aprenda un diccionario de vocabulario de todos los tokens en los documentos sin formato.
  2. fit_transform (raw_documents [, y]) Aprenda el diccionario de vocabulario y devuelva la matriz de documentos de términos

Primero, tome entradas sin procesar y formule el espacio vectorial dependiendo de la tarea (aquí la tarea es CountVectorization) y devuelve el modelo.

Por otro lado, el segundo completa el primer paso como subtarea y luego devuelve el vector normalizado que se basa en el espacio vectorial recién construido.

En scikit-learn estimator api ,

fit() : utilizado para generar parámetros de modelo de aprendizaje a partir de datos de entrenamiento

transform() : parámetros generados a partir del método fit() , aplicados sobre el modelo para generar un conjunto de datos transformado.

fit_transform() : combinación de api fit() y transform() en el mismo conjunto de datos

Disfruta 🙂