Intentaré explicar:
Supongamos que nuestro conjunto de datos de entrenamiento está representado por T y supongamos que el conjunto de datos tiene M características (o atributos o variables).
T = {(X1, y1), (X2, y2), … (Xn, yn)} y Xi es el vector de entrada {xi1, xi2, … xiM} y yi es la etiqueta (o salida o clase).
- ¿Cómo detectamos el sobreajuste y la falta de ajuste en Machine Learning?
- ¿Cuáles son las principales diferencias entre TensorFlow y SciKit Learn?
- Cómo pasar del desarrollo de pila completa al aprendizaje automático en el trabajo independiente
- ¿Cuál es un ejemplo numérico para el algoritmo de análisis de componentes principales (PCA)?
- ¿Quiénes son los mejores expertos en Machine Learning en el Área de la Bahía?
resumen de RF:
El algoritmo de bosques aleatorios es un clasificador basado principalmente en dos métodos: ensacado y método de subespacio aleatorio.
Supongamos que decidimos tener S número de árboles en nuestro bosque, luego creamos primero conjuntos de datos S del “mismo tamaño que el original” creados a partir de un muestreo aleatorio de datos en T con reemplazo (n veces para cada conjunto de datos). Esto dará como resultado conjuntos de datos {T1, T2, … TS}. Cada uno de estos se denomina conjunto de datos de rutina de carga. Debido al “reemplazo”, cada conjunto de datos Ti puede tener registros de datos duplicados y a Ti le pueden faltar varios registros de los conjuntos de datos originales. Esto se llama embolsado.
Ahora, RF crea S árboles y usa m (= sqrt (M) o = floor (lnM + 1)) subcaracterísticas aleatorias de M posibles características para crear cualquier árbol. Esto se llama método de subespacio aleatorio.
Entonces, para cada conjunto de datos de arranque de Ti, crea un Ki de árbol. Si desea clasificar algunos datos de entrada D = {x1, x2, …, xM}, deje que pase a través de cada árbol y produzca salidas S (una para cada árbol) que se pueden denotar por Y = {y1, y2, …, ys}. La predicción final es un voto mayoritario en este conjunto.
Error fuera de bolsa:
Después de crear los clasificadores (árboles S), para cada (Xi, yi) en el conjunto de entrenamiento original, es decir, T, seleccione todos los Tk que no incluyen (Xi, yi). Este subconjunto, preste atención, es un conjunto de conjuntos de datos boostrap que no contiene un registro particular del conjunto de datos original. Este conjunto se llama ejemplos fuera de bolsa. Hay n subconjuntos de este tipo (uno para cada registro de datos en el conjunto de datos T original). El clasificador OOB es la agregación de votos SOLO sobre Tk de manera que no contenga (xi, yi).
La estimación de fuera de bolsa para el error de generalización es la tasa de error del clasificador fuera de bolsa en el conjunto de entrenamiento (compárelo con los conocidos de yi).
¿Por qué es importante?
El estudio de las estimaciones de error para los clasificadores en bolsas en Breiman [1996b], proporciona evidencia empírica para mostrar que la estimación fuera de la bolsa es tan precisa como usar un conjunto de prueba del mismo tamaño que el conjunto de entrenamiento . Por lo tanto, el uso de la estimación de error fuera de bolsa elimina la necesidad de un conjunto de prueba de reserva.
Valor típico etc.?
Le da una idea de qué tan bueno es su clasificador y no creo que haya ningún valor típico. Depende totalmente de los datos de entrenamiento y del modelo construido.