Hay dos partes para estas preguntas:
1. Cómo lidiar con una variable categórica ‘a’ con muchos niveles:
a. Suponiendo que tiene n niveles, cree n-1 variables binarias. Por ejemplo, si tiene ingresos variables con 5 niveles: muy bajo, bajo, medio, alto y muy alto.
- Cómo validar las reglas de decisión individuales por separado en un árbol de decisión, en lugar de validar el modelo del árbol de decisión en su conjunto
- ¿Qué carrera debería intentar, ciencia de datos o aprendizaje automático?
- Tengo un programa en el que los datos se generan muy rápido, ¿cómo inserto los datos en una base de datos?
- ¿Qué sigue para los científicos de datos: cálculo multivariable, álgebra lineal o Python?
- ¿Big Data llegó para quedarse?
si. Cree variables Muy bajo, Bajo, Medio y Alto [5–1 = 4] en su conjunto de datos con los posibles valores 0 y 1.
do. Para la primera variable – Muy baja: Asigne un valor de 1 para registros que tengan ‘Muy bajo’ como Ingreso, 0 de lo contrario.
re. Itere esto para las 3 variables restantes.
mi. Ahora, puede usarlos en su ecuación del modelo de regresión.
Tenga en cuenta la regla (n-1) : si una variable tiene 0 en los cuatro casos anteriores, el modelo (y usted) sabe que pertenece a la quinta categoría, es decir, Muy alta = 1 – Muy baja – Baja – Media – Alta. Una suposición de regresión es que no puede expresar una variable como una combinación lineal de otras variables.
2. Reduzca el número de niveles:
a. El mejor enfoque es permitir que el modelo seleccione las variables a través de un enfoque de selección por pasos [se debe hacer una prueba de colinealidad múltiple]
si. Si desea trabajar con variables menores que entran en la ecuación del modelo, puede realizar un análisis de conglomerados para identificar los niveles que se comportan de manera similar contra el dependiente.
do. También puede usar el análisis factorial para la reducción de dimensiones
re. Puede utilizar conocimientos prácticos, por ejemplo, si está trabajando con departamentos, puede agrupar departamentos que vean juntos de manera similar
Mis 2 centavos es que no debes reducir las dimensiones y debes permitir que la metodología de regresión sugiera la mejor ecuación del modelo.