Cómo lidiar con una variable independiente categórica que tiene más de 500 variables en un problema de clasificación

En Machine Learning también tenemos que lidiar con más números de variables categóricas. Por lo general, codifican datos categóricos para que todos nuestros datos categóricos se conviertan a forma numérica. En el caso de variables independientes también seguimos la misma estrategia.

Aquí he compartido un código que se usa para codificar datos categóricos en python.

Conjunto de datos: –

Gasto en I + D, Administración, Estado, Beneficio
165349.2, 136897.8, 471784.1, Nueva York, 192261.83
162597.7, 151377.59, 443898.53, California, 191792.06

Código fuente:-

# Importando las bibliotecas

importar numpy como np

importar matplotlib.pyplot como plt

importar pandas como pd

# Importando el conjunto de datos

conjunto de datos = pd.read_csv (’50_Startups.csv’)

X = dataset.iloc [:,: -1] .values

y = dataset.iloc [:, 4] .values

# Codificación de datos categóricos

desde sklearn.preprocessing import LabelEncoder, OneHotEncoder

labelencoder = LabelEncoder ()

X [:, 3] = labelencoder.fit_transform (X [:, 3])

onehotencoder = OneHotEncoder (categorical_features = [3])

X = onehotencoder.fit_transform (X) .toarray ()

Aprendizaje automáticoestadísticasRegresión

¿Cuál es la diferencia entre TensorFlow y Grep? ¿Cuál es el más adecuado para el aprendizaje automático? ¿Por qué o por qué no?

¿Cómo aprendo el aprendizaje automático y dónde puedo practicarlo?

¿Cuál es la diferencia entre un modelo paramétrico y un modelo no paramétrico?

¿Cómo y cuándo comenzaste con Kaggle?

¿Están los seres humanos evolucionando hacia criaturas sin emociones debido a los avances tecnológicos?

¿Cómo se introdujo por primera vez en Machine Learning / Data Science?

¿Pregunta cómo maneja una variable categórica con un gran número de niveles (500) o cómo maneja un problema de clasificación con más de 500 variables predictoras categóricas? En cualquier caso, debe mirar CHAID.

Navya Rao

Como la pregunta es un poco vaga, intentaré adivinar lo que estás diciendo. Tiene datos de naturaleza categórica y con más de 500 categorías. Al decir que quiere lidiar con eso, supongo que quiere saber cómo representarlo.

Depende de qué algoritmo usará.

El enfoque general es OneHotEncode la variable. Otra es agruparlos por una base semánticamente común (por ejemplo, las categorías de alimentos van juntas).

Podrías hacer mucho, pero todo depende de tus datos.

Navya Rao

More Interesting

Aprendizaje profundo: ¿Por qué la función energética de la máquina de Boltzmann restringida se define de la manera en que se define?

Cómo agregar una razón de probabilidad para una característica en mi conjunto de datos

Además del aprendizaje profundo, ¿qué otras herramientas de extracción de funciones están funcionando o son prometedoras para el aprendizaje automático?

¿Por qué las RVM no son tan populares como las SVM?

¿Cuál es una variedad de problemas y problemas que pueden resolverse mediante la minería de datos y el aprendizaje automático? ¿Qué tipo de algoritmo se utiliza para qué tipo de problema?

En los algoritmos de aprendizaje automático, ¿por qué la función sigmoidea se usa principalmente y no funciones como tanh (x)? En tanhx por ej. parece dividir el eje y de manera uniforme y aplanarse rápidamente a medida que x se aproxima a +/- infinito. El rango es: sigmoide [0-1] y tanh (x) [-1,1].

Cómo leer y comprender trabajos de investigación sobre aprendizaje automático

¿Cómo utilizaría el aprendizaje automático para resolver este tipo de preguntas: 1 + 4 = 5, 2 + 5 = 12, 3 + 6 = 21, 8 + 11 =?

¿Cuál es una explicación intuitiva para el problema de optimización cuadrática?