¿Cuál es la diferencia entre bootstrapping y validación cruzada?

Bootstrapping es una técnica que ayuda en muchas situaciones, como la validación del rendimiento de un modelo predictivo, los métodos de conjunto, la estimación del sesgo y la varianza del modelo.

Funciona mediante muestreo con reemplazo de los datos originales, y toma los puntos de datos ” no elegidos ” como casos de prueba. Podemos hacer esto varias veces y calcular el puntaje promedio como una estimación del rendimiento de nuestro modelo.

Además, Bootstrapping ayuda en los métodos de conjunto, ya que podemos construir un modelo (como un árbol de decisión) usando cada conjunto de datos de bootstrap y ” empacar ” estos modelos en un conjunto (como Random Forest) y tomar la mayoría de votos para todos estos modelos como Nuestra clasificación resultante.

Por otro lado, la validación cruzada es una técnica para validar el rendimiento del modelo, y se realiza dividiendo los datos de entrenamiento en k partes. Tomamos partes k-1 como nuestro conjunto de entrenamiento y utilizamos la parte ” extendida ” como nuestro conjunto de prueba. Repetimos que k veces de manera diferente (mantenemos una parte diferente cada vez). Finalmente, tomamos el promedio de los puntajes k como nuestra estimación de rendimiento.

La validación cruzada puede sufrir sesgos o variaciones. Si aumentamos el número de divisiones (k), la varianza aumentará y el sesgo disminuirá. Por el contrario, si disminuimos (k), el sesgo aumentará y la varianza disminuirá. Generalmente se usa un CV de 10 veces pero, por supuesto, depende del tamaño de los datos de entrenamiento.

Si no tiene muchos datos para entrenar su modelo, puede confiar en bootstrapping donde muestreará repetidamente los datos con reemplazo. Es como seleccionar 100 muestras de 150 muestras volviendo a colocar la muestra seleccionada antes de elegir la siguiente muestra al azar. Luego puede entrenar su modelo en los diferentes conjuntos que tiene para obtener una medida de precisión.

La validación cruzada es un método para medir el rendimiento de un solo modelo en diferentes conjuntos de datos. Aquí, los diferentes conjuntos de datos se eligen dividiendo el conjunto de entrenamiento en, digamos, 10 divisiones. Luego, entrena en el conjunto de datos compuesto por 9 divisiones y lo prueba en la décima división. Repita este rendimiento 10 veces (cada vez que elija una división de prueba diferente) y luego promedie la precisión del modelo en 10 divisiones de prueba diferentes. La validación cruzada puede sufrir sesgos o variaciones según el tamaño y el número de divisiones.

Me refiero directamente a este documento

La validación cruzada es una técnica para validar el rendimiento de un “modelo” para asegurarse de que no estamos ajustando demasiado el conjunto de datos de capacitación. Implica dividir el conjunto de datos de entrenamiento y entrenamiento y pruebas en diferentes partes del conjunto de datos

Bootstrap se usa más bien para estimar la varianza de un parámetro / estimación. Es una forma de simular la “distribución correcta”. Sin embargo, dado que la distribución es desconocida, necesitamos repetir algunos puntos de datos para asegurarnos de que podemos crear estas muestras a partir de un conjunto de datos limitado.

En resumen, la validación cruzada “divide” el conjunto de datos disponible para crear múltiples conjuntos de datos, y Bootstraps “clona” o extrapola los conjuntos de datos originales para crear múltiples conjuntos de datos. Bootstrap no es una técnica de validación de modelo o es más débil que validación cruzada si se usa para la validación del modelo.

Realmente espero que alguien pueda dar una mejor respuesta. Tengo entendido que tienen diferentes orígenes. Bootstrap proviene de estadísticas más tradicionales. Literalmente significa “atrapamiento de botas”: los datos se muestrean con reemplazo como si tiraras de las botas cuando estás atrapado en el barro (no me preguntes sobre la metáfora, soy chino …). La validación cruzada es que usa parte de los datos para predecir la otra parte, por lo general, los conjuntos de datos no deben superponerse. Pero definitivamente puedes mezclar las dos técnicas.

Bootstrapping es un método para evitar el sobreajuste al tomar el promedio (o cualquier otro método de combinación como la regresión) de los modelos más pequeños (generados por pequeños n subconjuntos aleatorios de datos de entrenamiento total).

La validación cruzada es un método para probar la precisión de su modelo único en datos de entrenamiento de subconjuntos pequeños seleccionados al azar. Puede ser útil ajustar los hiperparámetros para generalizar el modelo.

More Interesting

¿Qué es mejor: un tema fundamental de doctorado de ML o uno aplicado?

Cómo decidir el tamaño de la muestra para el aprendizaje automático con datos de series temporales

¿Qué aspecto de los algoritmos de las redes de aprendizaje profundo requieren GPU además de, o en lugar de, CPU, y por qué?

Cómo seleccionar efectivamente un tamaño de lote óptimo para la actualización de parámetros de aprendizaje profundo, basado en las especificaciones de GPU

¿Cómo comenzaría con el cambio de funciones o el desarrollo de indicadores de funciones en mi empresa? Actualmente utilizamos ramificaciones.

¿R necesita una herramienta de flujo de trabajo visual como RapidMiner y Knime?

¿Qué necesitan saber los desarrolladores de aplicaciones sobre Siri para interactuar con él?

Cómo aprender a crear un sistema óptico de reconocimiento de caracteres utilizando redes neuronales artificiales como mi mini proyecto

¿Se puede colocar un previo en el hiperparámetro de un modelo bayesiano jerárquico?

En el aprendizaje profundo, ¿cómo convertir una oración o documento en un vector binario (flujo de 0 y 1)?

¿Por qué utilizamos el agrupamiento en el análisis estadístico? ¿Puedes dar una explicación intuitiva o ejemplos intuitivos?

¿Cuántas imágenes necesita un buen sistema de aprendizaje automático para aprender un nuevo concepto?

Cómo construir sobre modelos de red profunda de detección de objetos pre-entrenados (YOLO) para detectar nuevas clases

¿Cómo validaría un modelo que creó para generar un modelo predictivo de una variable de resultado cuantitativa mediante regresión múltiple?

¿Cuáles son los diferentes modelos de aprendizaje automático?