¿Cuántos parámetros deben ajustarse para Random Forest?

Los métodos de aprendizaje en conjunto son un conjunto de métodos poderosos utilizados tanto en problemas de clasificación como de regresión, y el bosque aleatorio es probablemente uno de los métodos más populares en las técnicas de conjunto. Dicho esto, el bosque aleatorio requiere mucha afinación para evitar el sobreajuste en los ejemplos de entrenamiento. Les insto a leer el blog Acercarse (casi) a cualquier problema de aprendizaje automático | Abhishek Thakur. Sirve como punto de partida. Ahora tomemos un momento para comprender brevemente qué hace el bosque aleatorio (tomando el problema de clasificación como ejemplo). En bosques aleatorios, se cultivan múltiples árboles en oposición a los árboles de decisión donde se usa un solo árbol. Para clasificar un nuevo objeto basado en atributos, cada árbol da una clasificación y decimos que el árbol “vota” para esa clase. El bosque elige la clasificación que tiene la mayor cantidad de votos (sobre todos los árboles del bosque) y, en caso de regresión, toma el promedio de los resultados de los diferentes árboles. Además de las muestras bootstrap, los bosques aleatorios también usan una división en m características de p características disponibles y se usa una muestra nueva de m predictores en cada división. Esto nos deja con los parámetros de árbol regulares ay un parámetro adicional que es el tamaño de la característica a muestrear. Se volvió un poco confuso allá arriba. Pero permítanme dar un pequeño resumen sobre los parámetros disponibles que sintonizo.

  • La profundidad del árbol
  • El número mínimo de muestras requeridas en el nodo hoja
  • El número máximo de características a muestrear (elegir entre ‘log2’ y ‘sqrt’
  • Número de estimadores a utilizar.

¡uf! eso se hizo un poco largo. Dicho todo esto, si estoy convencido del uso de bosques aleatorios para un problema en particular, generalmente lo ejecuto sin ajustes de hiperparámetros y con 500 estimadores. Esto me da un puntaje de referencia que se puede mejorar no solo mediante un ajuste adicional sino también mediante la ingeniería de características. Espero que esto ayude. Que tengas un buen día.

Puedes ver más sobre mi trabajo en Medium

Feliz aprendizaje !!!

Desea comenzar desde el número de árboles, luego use la profundidad máxima del árbol y la hoja de muestra mínima para ver si puede mejorar la generalización. Todo lo demás generalmente se deja intacto (incluido el número máximo de características) y no hace mucha diferencia.