Buena pregunta. Teóricamente, tiene más sentido emplear muchos algoritmos y promediarlos juntos. Sin embargo, hay algunas razones prácticas por las que los bosques aleatorios se han vuelto tan populares en los últimos años:
- El preprocesamiento es trivial. A los árboles de decisión no les importa si sus datos son discretos, continuos o incluso contienen valores de caracteres. No requieren que escale todas las variables para que tengan una media de 0 y una desviación estándar de 1. Literalmente, puede escribir 10 líneas de código de Python para obtener un clasificador que sea 97% preciso en MNIST utilizando bosques aleatorios.
- La regresión y la clasificación son fáciles. Muchas veces no está del todo claro cuándo desea utilizar la regresión o la clasificación, particularmente con un problema de 0/1 como la detección de enfermedades. Afortunadamente, con los bosques aleatorios no tiene que elegir: el mismo conjunto de datos se puede alimentar a un Regresor y un Clasificador.
- Los bosques son fácilmente configurables. ¿Demasiado sobreajuste? Solo usa algunos árboles extremadamente aleatorios. ¿Quieres saber importancias variables? Sorprendentemente fácil.
- Los bosques son extremadamente paralelos. Bootstrapping en general es fácil de paralelizar, y hay muchos módulos donde literalmente puede establecer el número de núcleos que desea que su bosque use como parámetro. En contraste, puede ser significativamente más difícil paralelizar un SVM o un método basado en Boosting.
- Los bosques funcionan muy bien. En la práctica, descubrí que un bosque aleatorio lanzado en 5 minutos a menudo supera a otros algoritmos minuciosamente ajustados. Esto se debe a que el arranque funciona mejor con clasificadores muy inestables que se ajustan fácilmente. Los árboles de decisión ajustan esto a una T, mientras que muchos otros métodos (regresión lineal, k-NN, SVM) no se benefician casi tanto.
En resumen, la combinación de facilidad de uso y alto rendimiento convierte a Random Forests en la solución definitiva 80/20: obtendrá modelos de alta calidad con muy poco trabajo.
- ¿Cuál es la explicación detallada de Autoencoder apilado (Denoising)?
- ¿En qué aspectos el aprendizaje automático y la inteligencia artificial cambiarán la fabricación pesada, como la industria del petróleo y el gas?
- ¿El aprendizaje automático permitirá a Google detectar contenido falso?
- ¿Cómo agrega Quora el aprendizaje automático a su aplicación web?
- ¿Cómo puedo explicar que las unidades tradicionales de red neuronal recurrente (RNN) sufren el problema del gradiente de fuga?