El paquete rpart proporciona un algoritmo del modelo ‘árbol’ y el paquete randomForest produce una gran cantidad de árboles por boostrap (y es un ‘bosque’).
Una de las diferencias clave es el poder de predicción como se mencionó en un comentario anterior y la razón se debe principalmente a la forma en que se realiza una división en cada etapa, así como a los resultados de las muestras de bootstrap para agregar el resultado final.
(1) En un bosque aleatorio, solo se selecciona un subconjunto de predictores y puede reducir el impacto de predictores fuertes. Esto se debe a que, una vez que un predictor fuerte realiza una división en una etapa anterior, no hay mucho espacio para que otros predictores mejoren el ajuste. En este sentido, se puede identificar un patrón sistemático local.
- ¿Cómo funciona el aprendizaje profundo en tiempo real?
- ¿Qué matemáticas se necesitan para este curso de aprendizaje automático?
- ¿Cómo deberíamos comenzar con los conceptos básicos del aprendizaje automático para construir un sistema de recomendación utilizando Python?
- ¿Qué algoritmos de aprendizaje automático no requieren escalado de características?
- ¿Qué es el análisis de componentes principales en términos de super laicos?
(2) Digamos también que hay dos predictores altamente correlacionados. En este caso, si se emplea un predictor para una división, no es probable que se use el otro en etapas subsecuentes. Sin embargo, si el primer predictor no está involucrado, este predictor puede desempeñar un papel, lo que puede resultar en una mejora adicional del ajuste.
(3) Finalmente, uno de los principales beneficios de bootstrap se logra con un varaince más bajo. (Recuerde que error cuadrático medio = sesgo cuadrado + varianza)
Los dos primeros pueden contribuir a un sesgo más bajo y el último a un varaince más bajo para que se pueda mejorar su poder de predicción, aunque su interpretación puede no ser exhaustiva.