Si no tiene ninguna preocupación con respecto a los tiempos de cálculo, cuantos más árboles tenga, mejores estimaciones (confiables) obtendrá de las predicciones de fábrica. Puede usar la tasa de error OOB para determinar la cantidad de árboles.
Por otro lado, si tiene problemas con el desequilibrio de clases o tiene variables que tienen un gran número de niveles (es decir, continuo) versus pequeños (es decir, categórico), es posible que desee tener cuidado con la configuración de los parámetros de RF. Hay ciertas formas de manejar el problema de desequilibrio de clase (es decir, el embolsado se puede hacer teniendo en cuenta la distribución de la clase). El sesgo hacia la selección de predictores continuos puede evitarse mediante mecanismos especiales (el bosque aleatorio condicional -> cforest) es una de las posibles soluciones).
Para resumir, RF es un método muy fuerte, pero el rendimiento inferior puede ser el resultado de las características de los datos.
- ¿Por qué es popular el aprendizaje profundo?
- ¿Cuál es mejor LMS o descenso más empinado?
- ¿Cuánto del aprendizaje automático es en realidad solo optimización?
- ¿Cuál es la diferencia entre derivada de una función o pendiente de gradiente?
- ¿Cuál es el código de aprendizaje automático más pequeño que se podría escribir en Java?