¿Cuáles son las razones que explican que Random Forest funcione mejor que los métodos sin ensamblaje?

No diría que las muestras más pequeñas de los datos de entrenamiento son de alguna manera menos ruidosas, y no estoy seguro de qué quiere decir con subconjuntos optimistas (?)

Es cierto para cualquier método de conjunto que está construyendo muchos clasificadores independientes y luego eligiendo o favoreciendo el que mejor funciona. Entonces estoy de acuerdo con el # 3.

Una fortaleza particular de los bosques de decisión aleatoria es que realmente está haciendo una selección de características para usted, porque por casualidad construirá árboles con buenas características y los favorecerá sobre los árboles que se construyeron con características de ruido.

Las reglas de decisión en las hojas no son sensibles a los valores atípicos o al ruido pequeño. Supongo que la razón es la misma razón por la que los SVM son robustos para los valores atípicos. Solo los valores cercanos al punto de decisión realmente afectan el punto de decisión. Por ejemplo, el punto de decisión para una característica numérica generalmente está a medio camino entre dos valores reales en la muestra, y el resto de los valores no importan per se, solo en que están en un lado o en el otro.

El precio de todo esto es que lo logra a través de mucha fuerza bruta tonta, construyendo cientos o miles de árboles. Pero el procesamiento es barato hoy en día, si puede paralelizar, y esto es muy paralelo, por lo que termina siendo una excelente manera de arrojar un procesamiento barato al problema.

More Interesting

¿Cuál es la diferencia entre análisis inferencial y descriptivo de datos?

¿Big Data es una gran BS?

¿Cómo serán las oportunidades de trabajo de Big Data para una persona de TI con 1.5 años de experiencia en 2016?

Estoy interesado en obtener un título de licenciatura en línea post-bac de la Oregon State University en Data Science. ¿Sería una responsabilidad obtener un título en línea?

¿Qué información buscará un científico de datos en un conjunto de datos de un procesador de pagos en línea que consta de transacciones, información comercial y otra información sobre negocios comerciales?

¿Cuál es la diferencia entre un actuario y un científico de datos?

¿Cuáles son las herramientas de big data?

¿Cuál es la diferencia entre ciencia de datos, análisis de datos, minería de datos, aprendizaje automático, inteligencia artificial y big data?

¿Qué tan importante es SAP en la minería de datos?

¿Qué clasificadores de aprendizaje automático escalan muy bien a big data? ¿Hay alguna referencia de papel?

¿Qué es la 'máquina virtual de ciencia de datos' de Microsoft? ¿Alguien puede explicar el precio de una manera intuitiva?

¿En qué área de las matemáticas debo mejorar para entrar en una carrera de ciencias de datos, cálculo o matemáticas discretas?

¿Qué tan comunes son los métodos bayesianos en la industria?

Quiero ser exhaustivo con programación y estadísticas en profundidad en poco tiempo. ¿Qué tengo que hacer? ¿Cuáles son algunos buenos libros para principiantes / intermedios?

¿Por qué LinkedIn separó a su equipo de ciencia de datos?