No diría que las muestras más pequeñas de los datos de entrenamiento son de alguna manera menos ruidosas, y no estoy seguro de qué quiere decir con subconjuntos optimistas (?)
Es cierto para cualquier método de conjunto que está construyendo muchos clasificadores independientes y luego eligiendo o favoreciendo el que mejor funciona. Entonces estoy de acuerdo con el # 3.
Una fortaleza particular de los bosques de decisión aleatoria es que realmente está haciendo una selección de características para usted, porque por casualidad construirá árboles con buenas características y los favorecerá sobre los árboles que se construyeron con características de ruido.
- Un instituto de capacitación me dijo que no hay trabajo para principiantes en big data, ¿es cierto? Me aconsejan que vaya a un curso de ciencias de datos, ¿qué debo hacer?
- ¿Qué tipo de datos predice con precisión el aprendizaje automático?
- ¿Cuáles son las áreas de investigación en el análisis de big data, especialmente relacionadas con la minería de datos?
- ¿A qué empresa debo postularme para un trabajo si soy ciudadano de la UE y quiero trabajar en los Estados Unidos?
- ¿Qué servidor utiliza Google para guardar grandes datos?
Las reglas de decisión en las hojas no son sensibles a los valores atípicos o al ruido pequeño. Supongo que la razón es la misma razón por la que los SVM son robustos para los valores atípicos. Solo los valores cercanos al punto de decisión realmente afectan el punto de decisión. Por ejemplo, el punto de decisión para una característica numérica generalmente está a medio camino entre dos valores reales en la muestra, y el resto de los valores no importan per se, solo en que están en un lado o en el otro.
El precio de todo esto es que lo logra a través de mucha fuerza bruta tonta, construyendo cientos o miles de árboles. Pero el procesamiento es barato hoy en día, si puede paralelizar, y esto es muy paralelo, por lo que termina siendo una excelente manera de arrojar un procesamiento barato al problema.