ATA Muchos algoritmos de aprendizaje automático requieren números como entradas, por lo que si su variable categórica toma valores como “manzana”, “naranja” y “pera”, entonces debe codificarlo como números de alguna manera. Las variables ficticias proporcionan una forma de hacer esto.
En el resto de esta respuesta, supondré que su modelo es una regresión lineal. Si sus variables categóricas toman valores que parecen números, tiene la opción de introducirlos en el algoritmo como números. Llamemos a su variable X y supongamos que toma los valores “1”, “2”, “3”, “4” o “5”. Si introduce X en el modelo como números, el modelo estimará solo un único parámetro, que es el efecto sobre la variable objetivo de aumentar X en 1 unidad. Entonces, si mantiene todo lo demás constante y aumenta X de 1 a 2, eso afecta la variable objetivo de la misma manera que la aumenta de 2 a 3 o de 4 a 5.
Si, en cambio, modela X como categórico, estimará 4 parámetros: el efecto de aumentar X de 1 a 2, de 2 a 3, y así sucesivamente. Estos valores podrían ser todos diferentes.
- ¿Cuáles son algunos de los buenos libros sobre redes neuronales artificiales, minería de datos, aprendizaje automático, big data y análisis de datos?
- ¿El procesamiento del lenguaje natural reemplaza la búsqueda elástica?
- ¿Pueden los algoritmos de aprendizaje automático de análisis de datos reemplazar el trabajo realizado por los científicos de datos?
- ¿Podrían probarse los conceptos de la medicina tradicional china mediante el aprendizaje profundo?
- ¿Qué es el HTML? ¿Cuáles son las características que tiene sobre una representación de datos en texto plano?
Si la variable objetivo es cercana a lineal en las etiquetas para X, será más eficiente incluir X como variable numérica, por lo que no desperdiciará datos que estimen cuatro parámetros que son casi iguales. Si no, el modelo se ajustará mejor (y probablemente ofrecerá mejores predicciones) si X se trata como categórico, de modo que el modelo pueda capturar la no linealidad.