¿Cuál es el error de la bolsa en bosques aleatorios? Qué significa eso? ¿Cuál es un valor típico, si lo hay? ¿Por qué sería mayor o menor que un valor típico?

Intentaré explicar:

Supongamos que nuestro conjunto de datos de entrenamiento está representado por T y supongamos que el conjunto de datos tiene M características (o atributos o variables).

T = {(X1, y1), (X2, y2), … (Xn, yn)} y Xi es el vector de entrada {xi1, xi2, … xiM} y yi es la etiqueta (o salida o clase).

resumen de RF:

El algoritmo de bosques aleatorios es un clasificador basado principalmente en dos métodos: ensacado y método de subespacio aleatorio.

Supongamos que decidimos tener S número de árboles en nuestro bosque, luego creamos primero conjuntos de datos S del “mismo tamaño que el original” creados a partir de un muestreo aleatorio de datos en T con reemplazo (n veces para cada conjunto de datos). Esto dará como resultado conjuntos de datos {T1, T2, … TS}. Cada uno de estos se denomina conjunto de datos de rutina de carga. Debido al “reemplazo”, cada conjunto de datos Ti puede tener registros de datos duplicados y a Ti le pueden faltar varios registros de los conjuntos de datos originales. Esto se llama embolsado.

Ahora, RF crea S árboles y usa m (= sqrt (M) o = floor (lnM + 1)) subcaracterísticas aleatorias de M posibles características para crear cualquier árbol. Esto se llama método de subespacio aleatorio.

Entonces, para cada conjunto de datos de arranque de Ti, crea un Ki de árbol. Si desea clasificar algunos datos de entrada D = {x1, x2, …, xM}, deje que pase a través de cada árbol y produzca salidas S (una para cada árbol) que se pueden denotar por Y = {y1, y2, …, ys}. La predicción final es un voto mayoritario en este conjunto.

Error fuera de bolsa:

Después de crear los clasificadores (árboles S), para cada (Xi, yi) en el conjunto de entrenamiento original, es decir, T, seleccione todos los Tk que no incluyen (Xi, yi). Este subconjunto, preste atención, es un conjunto de conjuntos de datos boostrap que no contiene un registro particular del conjunto de datos original. Este conjunto se llama ejemplos fuera de bolsa. Hay n subconjuntos de este tipo (uno para cada registro de datos en el conjunto de datos T original). El clasificador OOB es la agregación de votos SOLO sobre Tk de manera que no contenga (xi, yi).

La estimación de fuera de bolsa para el error de generalización es la tasa de error del clasificador fuera de bolsa en el conjunto de entrenamiento (compárelo con los conocidos de yi).

¿Por qué es importante?
El estudio de las estimaciones de error para los clasificadores en bolsas en Breiman [1996b], proporciona evidencia empírica para mostrar que la estimación fuera de la bolsa es tan precisa como usar un conjunto de prueba del mismo tamaño que el conjunto de entrenamiento . Por lo tanto, el uso de la estimación de error fuera de bolsa elimina la necesidad de un conjunto de prueba de reserva.

Valor típico etc.?
Le da una idea de qué tan bueno es su clasificador y no creo que haya ningún valor típico. Depende totalmente de los datos de entrenamiento y del modelo construido.

Bosques aleatorios – descripción de la clasificación:

La estimación del error de fuera de bolsa (oob):

En bosques aleatorios, no hay necesidad de validación cruzada o un conjunto de pruebas separado para obtener una estimación imparcial del error del conjunto de pruebas. Se estima internamente, durante la ejecución, de la siguiente manera:

Cada árbol se construye utilizando una muestra de arranque diferente de los datos originales. Aproximadamente un tercio de los casos quedan fuera de la muestra de bootstrap y no se utilizan en la construcción del árbol kth.

Ponga cada caso en la construcción del árbol kth abajo del árbol kth para obtener una clasificación. De esta manera, se obtiene una clasificación de conjunto de prueba para cada caso en aproximadamente un tercio de los árboles. Al final de la carrera, considere que j es la clase que obtuvo la mayoría de los votos cada vez que el caso n fue desproporcionado. La proporción de veces que j no es igual a la clase real de n promediada en todos los casos es la estimación de error de Oob. Esto ha demostrado ser imparcial en muchas pruebas.

La técnica de bosques aleatorios implica el muestreo de los datos de entrada con reemplazo (muestreo bootstrap). En este muestreo, aproximadamente una tercera parte de los datos no se utilizan para el entrenamiento y se pueden usar para las pruebas, que se denominan muestras fuera de bolsa. El error estimado en estas muestras fuera de bolsa es el error de fuera de bolsa.

Para más información, página en berkeley.edu

Esto podría ayudar a OOB

Sin ofender, pero la explicación dada ya se proporciona en el blog de Breiman.
¿Podría alguien aclarar amablemente el mismo proceso en términos más simples o estadísticos?

Gracias

More Interesting

¿Cuáles son algunos problemas de Kaggle que ayudarán a un principiante a avanzar?

¿Existe una definición matemática para una máquina de vectores de soporte?

Cómo realizar un proyecto de predicción relacionado con la salud utilizando big data y machine learning

¿Cuál es la diferencia entre minería de datos, aprendizaje automático y reconocimiento de patrones?

¿Qué son las unidades recurrentes cerradas y cómo se pueden implementar con TensorFlow?

Redes Adversarias Generativas: ¿cuál es la intuición detrás del mapeo de una muestra de ruido aleatorio a una muestra de datos?

¿Por qué hay tantos enfoques generativos en la clasificación de escenas, mientras que el enfoque discriminatorio es el principal en el reconocimiento / detección de objetos?

¿Puedes recomendar un gran conjunto de videos de YouTube sobre aprendizaje automático y redes neuronales dirigidas a principiantes?

Redes neuronales artificiales: ¿Qué determina si un problema de clasificación no trivial para el aprendizaje profundo se puede dividir en capas convolucionales en lugar de capas completamente conectadas?

¿Es una idea loca aprender el aprendizaje automático y el aprendizaje profundo sin ningún conocimiento avanzado de matemáticas?

Al entrenar a un clasificador, ¿cómo trato con clases que tienen números muy diferentes de muestras en el conjunto de entrenamiento? ¿Cómo evito un ajuste excesivo en la clase que tiene la mayor cantidad de muestras?

¿Por qué parece que hay capas y capas de significado más profundo ocultas bajo la simple forma de escritura de Ernest Hemingway?

¿Qué es un codificador / decodificador en aprendizaje profundo?

¿En qué debería concentrarme después de aprender el aprendizaje automático si no estoy interesado en el aprendizaje profundo?

¿Se utiliza R en la minería de datos a gran escala en grandes compañías de software como Facebook y LinkedIn?