Las características de submuestreo versus las observaciones dan resultados ligeramente diferentes.
Los árboles tienen una variación natural cuando se ajustan a los datos; varianza significa la tendencia a encajar en algo idiosincrásico e incorrecto basado en ruido / detalles de muestra irrelevantes. La variación es la variación del modelo que puede verse afectada incluso por pequeños cambios en los datos.
Las observaciones de submuestreo ayudan con el sobreajuste al simular la capacitación en muchos sorteos diferentes de la distribución de datos.
- ¿Cuál es la diferencia entre un contenedor y un algoritmo de filtro en Data Mining / Machine Learning?
- ¿Cuál es el minimizador de [matemáticas] H [f] = \ sum ^ {N} _ {i = 1} \ | y ^ {(i)} - f (x_i) \ | ^ 2_ {2} + \ lambda \ | Pf \ | ^ 2 [/ math] cuando la salida es un vector?
- ¿Cuál es la motivación de Google para el código abierto del modelo de TensorFlow para problemas ML / NLP como el resumen automático de texto?
- ¿Qué piensan los científicos de los expertos en SEO?
- ¿Qué debo hacer si determino que los resultados de mi conjunto de datos de entrenamiento difieren mucho de los resultados de mi conjunto de datos de prueba?
El ajuste en las submuestras extrae las idiosincrasias de la varianza, en realidad las empeora. Pero algún componente de estas idiosincrasias es esencialmente aleatorio; y promediar muchas instancias de estas idiosincrasias promedia este componente aleatorio y lo suaviza; lo hace desaparecer
Esto disminuye la varianza.
Lo mismo ocurre con las características de submuestreo.
Las características de submuestreo evitan que los árboles se sobreajusten promediando la estructura basada en correlaciones espurias.
También obliga a los árboles a utilizar las características de manera más uniforme, incluso si no son tan fuertes. Tener contribuciones débiles de muchas características es a menudo más robusto que tener contribuciones fuertes de pocas características.
En general, se trata de descifrar el componente aleatorio de la estructura de árbol para que pueda promediarlo.