¿El bosque aleatorio funciona con variables categóricas?

Como se ha señalado, depende de la implementación. Scikit-learn requiere un hot (o lo hizo la última vez que lo verifiqué), y R’s randomForest puede hacer con cualquiera.

Sin embargo, debe tener cuidado, en general, al tratar con variables categóricas y bosques aleatorios. Especialmente aquellos con muchos niveles. No solo aumentan la complejidad computacional para crear los árboles (y, por lo tanto, el bosque), sino que también pueden tener más importancia de la que desearía. Una cita del artículo de Wikipedia sobre bosques aleatorios (en la sección de selección de variables): “Para los datos que incluyen variables categóricas con diferente número de niveles, los bosques aleatorios están sesgados a favor de aquellos atributos con más niveles”. Si bien Wikipedia no siempre es la mejor fuente, es perfecto aquí.

Hay formas de superar esto, como explica el artículo, mencionando permutaciones parciales y árboles imparciales (vea aquí la sección relevante del artículo de Wikipedia), pero de nuevo, a menos que desee implementarlos usted mismo, debe encontrar una implementación que lo haga esta.

Related Content

La mayoría de los profesionales del aprendizaje automático parecen entusiasmarse con el término "aprendizaje profundo". ¿Cuáles son algunas de las aplicaciones prácticas del aprendizaje profundo?

¿Qué tan útil es el aprendizaje automático?

¿Cómo funcionan las redes interbancarias?

¿Cómo se usa Machine Learning en las diferentes etapas de los sitios web de comercio electrónico (compras en línea)?

¿En qué se diferencia LSTM de RNN? En una explicación laica.

A menudo se dice que la informatización resulta en desempleo. ¿Estás de acuerdo?

¿Qué parte de la computadora portátil puedo separar para insertarla en otra computadora portátil del mismo modelo?

Depende de la implementación, algunas bibliotecas convertirán variables categóricas a ficticias para usted (funciona en randomForest de R si no recuerdo mal).

Otras bibliotecas funcionan con estructuras matemáticas (matrices) ya bien formadas, como scikit-learn de Python, y por lo tanto arrojan errores cuando el formato no corresponde.

Sin embargo, una de las variables categóricas de codificación más rápidas es una práctica recomendada, ya que le permite verificar las categorías subrepresentadas y otros patrones que reducen de una forma u otra el rendimiento de la predicción.

Avicohen

Sí, porque dentro de RF hay un montón de árboles de decisión. Cualquier árbol de decisión puede funcionar tanto en valores numéricos como categóricos.

Sofie Thijs

Si trabaja con variables que tienen un número diferente de niveles o si trabaja con una combinación de variables que son continuas y categóricas, use bosques aleatorios condicionales en lugar de bosques aleatorios estándar. Este último será parcial. Hay paquetes en R para realizar RF condicional. Saludos cordiales

Avicohen

Sí, pero no lo recomendaría si tiene variables categóricas con muchos niveles. El tiempo de cálculo y el sesgo dañarán su modelo.

Sofie Thijs

More Interesting

En Data Science, ¿cuáles son algunos proyectos específicos de la industria del juego?

¿Por qué confiamos en la aleatoriedad de la búsqueda aleatoria en la optimización de hiperparámetros?

¿Pueden las máquinas entender el significado de las palabras?

¿Cuál es la importancia del análisis de componentes principales (PCA) en el modelado predictivo?

¿Cuál es la principal diferencia entre los problemas de clasificación y los problemas de regresión en el aprendizaje automático?

¿Cuáles son algunos paquetes de software populares para modelos gráficos?

¿La topografía emocional es relevante para IR?

¿Por qué las computadoras no pueden superar de manera confiable a los humanos en reconocimiento facial?

¿Cómo calificaría un buen algoritmo, buenos datos, buena ingeniería de características en términos de efectividad para el aprendizaje automático?

¿Cuál es la diferencia entre estadística y aprendizaje automático?

¿Cómo se debe introducir el gobierno de máquinas?

¿Las redes RBM (máquina de Boltzman restringida) suelen tener el mismo número de nodos por capa?

¿Por qué no podemos hacer una puerta XOR con 1 neurona?

Cómo aprender los conceptos básicos del aprendizaje automático dentro de una semana para una entrevista de trabajo

¿Vale la pena adquirir un conocimiento profundo tanto del aprendizaje automático como de la biología? ¿Debo concentrarme?

Web Analytics