Para eso necesitas entender cómo funciona Count Vectorizer. Tomemos un ejemplo de solo una columna con digamos 4 filas (que será un vector de 4 elementos) y usemos Count Vectorizer en eso.
from sklearn.feature_extraction.text import CountVectorizer
vectorizador = CountVectorizer ()
corpus = [
‘Este es el primer documento’.
‘Este es el segundo segundo documento’.
‘Y el tercero’.
‘¿Es este el primer documento?’,
]
X = vectorizer.fit_transform (corpus)
imprimir “Resultado:”, X.toarray ()
imprimir “Diccionario:”, vectorizer.get_feature_names ()
- ¿Cuál es el flujo de trabajo típico para usar el aprendizaje profundo para resolver un problema?
- ¿Cuál es el significado de la optimización convexa en el aprendizaje automático?
- ¿Cuál es más eficiente para los algoritmos de reconocimiento facial, PCA o LDA?
- ¿El gradiente sintético eliminará la propagación hacia atrás?
- ¿Qué es la regresión de Ridge en términos simples?
Salida:
Resultado: [[0 1 1 1 0 0 1 0 1]
[0 1 0 1 0 2 1 0 1]
[1 0 0 0 1 0 1 1 0]
[0 1 1 1 0 0 1 0 1]]
Diccionario: [u’and ‘, u’document’, u’first ‘, u’is’, u’one ‘, u’second’, u’the ‘, u’third’, u’this ‘]
X representa los datos de entrada en términos de frecuencia de palabras presentes en el diccionario. [math] X_ij [/ math] representa la frecuencia de [math] j ^ th [/ math] palabra (en el diccionario) en [math] i ^ th [/ math] elemento (oración) de datos. El diccionario está construido por las palabras presentes en los datos, aunque también puede proporcionar su propio conjunto de palabras.
Ahora, volviendo a su pregunta, desea aplicar Count Vectorizer a diferentes columnas y luego usar todo junto como una entrada para su algoritmo ML. Para facilitar, supongamos que tiene dos columnas de texto, es decir, columna1 y columna2. Entonces, esto es lo que puedes hacer:
vectorizer_1 = CountVectorizer ()
vectorizer_2 = CountVectorizer ()
# Ajustar y transformar con vectorizer_1 en la columna 1
X_1 = vectorizer.fit_transform (columna_1)
# Ajustar y transformar con vectorizer_2 en la columna 2
X_2 = vectorizer.fit_transform (column_2)
from scipy.sparse import hstack
#Concat ambos resultados
X = hstack ([X_1, X_2])
Aquí, he usado dos vectorizadores para ajustar ambas columnas y luego uní (concatenamos) la matriz resultante. Puede usar la [matemática] X [/ matemática] final como entrada para cualquier algoritmo.
Nota: He utilizado [math] hstack [/ math] de [math] scipy [/ math] para unirme, ya que la salida de la transformación Count Vectrorizer es una matriz dispersa.