documentación de sklearn:
Estoy tomando un ejemplo de sklearn.feature_extraction.text .CountVectorizer
donde tenemos dos de esas funciones:
- ¿Qué campo debo elegir: análisis de negocios, análisis de datos, inteligencia de negocios y minería de datos?
- ¿Hay algún programa de capacitación en ciencia de datos para empleados de H1B que trabajan en otro dominio?
- ¿Cuál es la próxima gran cosa después de Big Data?
- ¿Cuál es la diferencia entre Business Intelligence y Data Science?
- ¿Será el estilo de datos un buen sitio para aprender Big Data y Hadoop?
- fit (raw_documents [, y]) Aprenda un diccionario de vocabulario de todos los tokens en los documentos sin formato.
- fit_transform (raw_documents [, y]) Aprenda el diccionario de vocabulario y devuelva la matriz de documentos de términos
Primero, tome entradas sin procesar y formule el espacio vectorial dependiendo de la tarea (aquí la tarea es CountVectorization) y devuelve el modelo.
Por otro lado, el segundo completa el primer paso como subtarea y luego devuelve el vector normalizado que se basa en el espacio vectorial recién construido.
En scikit-learn estimator api ,
fit()
: utilizado para generar parámetros de modelo de aprendizaje a partir de datos de entrenamiento
transform()
: parámetros generados a partir del método fit()
, aplicados sobre el modelo para generar un conjunto de datos transformado.
fit_transform()
: combinación de api fit()
y transform()
en el mismo conjunto de datos
Disfruta 🙂