Cómo lidiar con una variable independiente categórica que tiene más de 500 variables en un problema de clasificación

En Machine Learning también tenemos que lidiar con más números de variables categóricas. Por lo general, codifican datos categóricos para que todos nuestros datos categóricos se conviertan a forma numérica. En el caso de variables independientes también seguimos la misma estrategia.

Aquí he compartido un código que se usa para codificar datos categóricos en python.

Conjunto de datos: –

Gasto en I + D, Administración, Estado, Beneficio
165349.2, 136897.8, 471784.1, Nueva York, 192261.83
162597.7, 151377.59, 443898.53, California, 191792.06

Código fuente:-

# Importando las bibliotecas

importar numpy como np

importar matplotlib.pyplot como plt

importar pandas como pd

# Importando el conjunto de datos

conjunto de datos = pd.read_csv (’50_Startups.csv’)

X = dataset.iloc [:,: -1] .values

y = dataset.iloc [:, 4] .values

# Codificación de datos categóricos

desde sklearn.preprocessing import LabelEncoder, OneHotEncoder

labelencoder = LabelEncoder ()

X [:, 3] = labelencoder.fit_transform (X [:, 3])

onehotencoder = OneHotEncoder (categorical_features = [3])

X = onehotencoder.fit_transform (X) .toarray ()

¿Pregunta cómo maneja una variable categórica con un gran número de niveles (500) o cómo maneja un problema de clasificación con más de 500 variables predictoras categóricas? En cualquier caso, debe mirar CHAID.

Como la pregunta es un poco vaga, intentaré adivinar lo que estás diciendo. Tiene datos de naturaleza categórica y con más de 500 categorías. Al decir que quiere lidiar con eso, supongo que quiere saber cómo representarlo.

Depende de qué algoritmo usará.

El enfoque general es OneHotEncode la variable. Otra es agruparlos por una base semánticamente común (por ejemplo, las categorías de alimentos van juntas).

Podrías hacer mucho, pero todo depende de tus datos.

More Interesting

Aprendizaje profundo: ¿Por qué la función energética de la máquina de Boltzmann restringida se define de la manera en que se define?

Cómo agregar una razón de probabilidad para una característica en mi conjunto de datos

Además del aprendizaje profundo, ¿qué otras herramientas de extracción de funciones están funcionando o son prometedoras para el aprendizaje automático?

¿Por qué las RVM no son tan populares como las SVM?

¿Cuál es una variedad de problemas y problemas que pueden resolverse mediante la minería de datos y el aprendizaje automático? ¿Qué tipo de algoritmo se utiliza para qué tipo de problema?

En los algoritmos de aprendizaje automático, ¿por qué la función sigmoidea se usa principalmente y no funciones como tanh (x)? En tanhx por ej. parece dividir el eje y de manera uniforme y aplanarse rápidamente a medida que x se aproxima a +/- infinito. El rango es: sigmoide [0-1] y tanh (x) [-1,1].

Cómo leer y comprender trabajos de investigación sobre aprendizaje automático

¿Cómo utilizaría el aprendizaje automático para resolver este tipo de preguntas: 1 + 4 = 5, 2 + 5 = 12, 3 + 6 = 21, 8 + 11 =?

¿Cuál es una explicación intuitiva para el problema de optimización cuadrática?

¿Se pueden usar datos generados por simulación por computadora para algoritmos de aprendizaje automático?

Supervisado versus no supervisado, inferencia versus predicción, paramétrico versus no paramétrico, ¿cómo se combinan esas características entre sí?

¿Por qué Google TensorFlow usa OpenCL y no OpenGL? ¿Cuáles son las ventajas?

Construcción del modelo de correlación / regresión: ¿Cuándo debo usar variables dependientes / independientes reales, y cuándo debo usar sus tasas de crecimiento?

¿Qué es ingenuo Bayes, clasificación de espacio vectorial y máquinas de vectores de soporte en la recuperación de información?

¿Es posible tener experiencia en desarrollo web, desarrollo de Android, resolución de problemas, IA y ML para tener un buen trabajo, o solo necesito concentrarme en un campo y no fusionar campos?