Como se ha señalado, depende de la implementación. Scikit-learn requiere un hot (o lo hizo la última vez que lo verifiqué), y R’s randomForest puede hacer con cualquiera.
Sin embargo, debe tener cuidado, en general, al tratar con variables categóricas y bosques aleatorios. Especialmente aquellos con muchos niveles. No solo aumentan la complejidad computacional para crear los árboles (y, por lo tanto, el bosque), sino que también pueden tener más importancia de la que desearía. Una cita del artículo de Wikipedia sobre bosques aleatorios (en la sección de selección de variables): “Para los datos que incluyen variables categóricas con diferente número de niveles, los bosques aleatorios están sesgados a favor de aquellos atributos con más niveles”. Si bien Wikipedia no siempre es la mejor fuente, es perfecto aquí.
Hay formas de superar esto, como explica el artículo, mencionando permutaciones parciales y árboles imparciales (vea aquí la sección relevante del artículo de Wikipedia), pero de nuevo, a menos que desee implementarlos usted mismo, debe encontrar una implementación que lo haga esta.
- ¿Cuál es el mejor instituto en Bangalore para aprendizaje automático, inteligencia artificial y aprendizaje profundo (necesita práctica)?
- ¿Existe alguna implementación para un clasificador incremental que pueda ejecutarse en un espacio dinámico de características, lo que significa cuando aparecen nuevas características?
- ¿Los HMM aún superan a los LSTM en pequeños conjuntos de datos?
- ¿Qué es un uso subestimado del aprendizaje automático?
- ¿Cómo superan los modelos de lenguaje neuronal (NLM) la maldición del problema de dimensionalidad para modelar el lenguaje natural?