¿Cómo se compara XGBoost (aumento de gradiente) con Random Forest?

En primer lugar, tenga cuidado al comparar un algoritmo (bosque aleatorio) con una implementación (xgboost).

Ahora, si comparamos los rendimientos de dos implementaciones, xgboost, y decimos guardabosques (en mi opinión, la mejor implementación de bosque aleatorio), el consenso generalmente es que xgboost tiene el mejor rendimiento (con una velocidad similar). Puede buscar los resultados de las competencias anteriores de Kaggle en su blog para ver que es parte de casi todas las soluciones de los ganadores.

Editar: algunos detalles más sobre el rendimiento de ambos algoritmos.
Desde mi experiencia, el aumento de gradiente siempre funcionará al menos tan bien, en términos métricos, como un bosque aleatorio. La principal diferencia que encuentro en la práctica es que el aumento de gradiente requiere mucho más cuidado en la configuración. Mientras que es perfectamente posible aplicar “ciegamente” RF y terminar con un rendimiento decente, con muy pocas posibilidades de sobreajuste, no tiene mucho sentido entrenar xgboost sin validación cruzada. Tendrá que ajustar la profundidad máxima de los árboles y el factor de contracción (creo que en R y Python).

Nunca intenté ejecutar un bosque aleatorio puro en xgboost (debe establecer sus rondas en 1 y num_parallel_trees en la cantidad que desea), pero a veces un “bosque aleatorio impulsado” híbrido puede obtener muy buenos resultados.

Otra cosa a tener en cuenta es la viabilidad de ejecutar esos algoritmos en esta cantidad de datos. 6 GB es factible si su máquina es lo suficientemente buena, pero alcanzar 1 TB crea un nuevo conjunto de problemas. Deberá comenzar a pensar en la distribución de sus cálculos, a través de Spark (con un rendimiento cuestionable) o de las soluciones propias de XGBoost (pero con una clara falta de documentación), o buscar aprendizaje sin memoria, que XGBoost supuestamente permite, pero que nunca intenté. .

Aprendizaje automáticoBosques aleatorios

Related Content

¿Cuáles son las instituciones en India que ofrecen cursos de aprendizaje automático y minería de datos y cuáles son las áreas posteriores?

¿Cuáles son las principales aplicaciones potenciales para un cordón neural? ¿Hay algún peligro relacionado con el uso de dicha tecnología?

¿Cómo realizo la selección de funciones?

¿Cómo podría agrupar usuarios similares en el conjunto de datos MovieLens?

Cómo realizar análisis de opinión sobre noticias del mercado de valores

Durante el aprendizaje automático para la detección de objetos, ¿cómo puedo simular el efecto de la iluminación de diferentes días en mi conjunto de datos de entrenamiento?

¿Dónde consigo la placa base Dell Inspiron 2205 (OEM AM3 0DPRF9 DPRF9) en India?

Los modelos de bolsas de bosques al azar, mientras que el impulso los promedia iterativamente con respecto al error. XGBoost extiende el impulso al imponer penalizaciones de regresión similares a la red elástica. Para el rendimiento, he descubierto que depende del problema.

Colleen Farrelly

Hola, es posible que desee consultar DART: http://www.jmlr.org/proceedings/ …

Básicamente, puede ver el bosque aleatorio como árboles potenciados con una tasa de deserción de 1. El documento muestra que ni 0 ni 1 es la tasa de deserción óptima.

Colleen Farrelly

More Interesting

Cómo crear la línea de regresión de mínimos cuadrados (error cuadrático medio mínimo) en R

¿Cómo puede beneficiarse el sector financiero con el uso de LD y AI?

¿Qué significa 'modelado de conjunto'?

¿Cómo deberías comenzar una carrera en Machine Learning?

¿Cuál es mejor? ¿AI o machine learning nanodegree por Udacity?

¿Podemos usar GridSearchCV () en CountVectorizer () cuando usamos modelos scikit-learn en datos de texto, o la búsqueda en cuadrícula solo se puede ejecutar en los modelos predictivos?

¿Cuáles son las principales innovaciones y hallazgos del documento 'Diseño químico automático utilizando una representación continua de moléculas basada en datos'?

Cómo hacer clustering de tipos de datos mixtos en Python

Cómo comprender mejor las funciones de activación en el aprendizaje automático, especialmente las matemáticas detrás de ellas

Cómo comenzar a aprender Neural Network y PNL

¿En qué se diferencia el aprendizaje automático de la minería de datos?

¿Hay alguna posibilidad de una B.Tech (CS) más fresca en trabajos de aprendizaje automático (ciencia de datos) en Bangalore?

Ingeniero de Aprendizaje Automático de Udacity Nanodegree: ¿Dónde están los proyectos?

¿Cuál es la mejor GPU que se utilizará para Deep Learning con presupuesto (> 400 $)?

¿Cómo funciona la codificación de características de alta cardinalidad con regresión de cresta?

Web Analytics