Los métodos de aprendizaje en conjunto son un conjunto de métodos poderosos utilizados tanto en problemas de clasificación como de regresión, y el bosque aleatorio es probablemente uno de los métodos más populares en las técnicas de conjunto. Dicho esto, el bosque aleatorio requiere mucha afinación para evitar el sobreajuste en los ejemplos de entrenamiento. Les insto a leer el blog Acercarse (casi) a cualquier problema de aprendizaje automático | Abhishek Thakur. Sirve como punto de partida. Ahora tomemos un momento para comprender brevemente qué hace el bosque aleatorio (tomando el problema de clasificación como ejemplo). En bosques aleatorios, se cultivan múltiples árboles en oposición a los árboles de decisión donde se usa un solo árbol. Para clasificar un nuevo objeto basado en atributos, cada árbol da una clasificación y decimos que el árbol “vota” para esa clase. El bosque elige la clasificación que tiene la mayor cantidad de votos (sobre todos los árboles del bosque) y, en caso de regresión, toma el promedio de los resultados de los diferentes árboles. Además de las muestras bootstrap, los bosques aleatorios también usan una división en m características de p características disponibles y se usa una muestra nueva de m predictores en cada división. Esto nos deja con los parámetros de árbol regulares ay un parámetro adicional que es el tamaño de la característica a muestrear. Se volvió un poco confuso allá arriba. Pero permítanme dar un pequeño resumen sobre los parámetros disponibles que sintonizo.
- La profundidad del árbol
- El número mínimo de muestras requeridas en el nodo hoja
- El número máximo de características a muestrear (elegir entre ‘log2’ y ‘sqrt’
- Número de estimadores a utilizar.
¡uf! eso se hizo un poco largo. Dicho todo esto, si estoy convencido del uso de bosques aleatorios para un problema en particular, generalmente lo ejecuto sin ajustes de hiperparámetros y con 500 estimadores. Esto me da un puntaje de referencia que se puede mejorar no solo mediante un ajuste adicional sino también mediante la ingeniería de características. Espero que esto ayude. Que tengas un buen día.
Puedes ver más sobre mi trabajo en Medium
- ¿Cómo entiendes las ecuaciones de MLE para los clasificadores Naive Bayes en el libro de aprendizaje automático de Kevin Murphy?
- ¿Qué es el aprendizaje automático en tiempo real?
- Regularización: ¿Por qué se llaman así los SVM L1 y L2 cuando ambos miden la distancia a un hiperplano a lo largo de la proyección ortogonal?
- ¿Qué funciona mejor, un ANN con miles de unidades por capa pero solo docenas de capas o uno con docenas de unidades por capa, pero cientos de capas?
- ¿Cuál es el valor de un curso de Coursera sobre aprendizaje automático por Andrew Ng para solicitar una maestría en Estados Unidos en las 20 mejores universidades?
Feliz aprendizaje !!!