Bootstrapping es una técnica que ayuda en muchas situaciones, como la validación del rendimiento de un modelo predictivo, los métodos de conjunto, la estimación del sesgo y la varianza del modelo.
Funciona mediante muestreo con reemplazo de los datos originales, y toma los puntos de datos ” no elegidos ” como casos de prueba. Podemos hacer esto varias veces y calcular el puntaje promedio como una estimación del rendimiento de nuestro modelo.
Además, Bootstrapping ayuda en los métodos de conjunto, ya que podemos construir un modelo (como un árbol de decisión) usando cada conjunto de datos de bootstrap y ” empacar ” estos modelos en un conjunto (como Random Forest) y tomar la mayoría de votos para todos estos modelos como Nuestra clasificación resultante.
- ¿Es cierto que las predicciones en el espacio de alta dimensión son más difíciles en torno al origen?
- ¿Hay algo que Deep Learning nunca podrá aprender?
- ¿Cómo es el estado de ML en Palantir?
- ¿Para qué se puede utilizar el análisis de la marcha?
- ¿Cuál es la medida cuantitativa sofisticada de la similitud de textos además de usar la similitud de coseno?
Por otro lado, la validación cruzada es una técnica para validar el rendimiento del modelo, y se realiza dividiendo los datos de entrenamiento en k partes. Tomamos partes k-1 como nuestro conjunto de entrenamiento y utilizamos la parte ” extendida ” como nuestro conjunto de prueba. Repetimos que k veces de manera diferente (mantenemos una parte diferente cada vez). Finalmente, tomamos el promedio de los puntajes k como nuestra estimación de rendimiento.
La validación cruzada puede sufrir sesgos o variaciones. Si aumentamos el número de divisiones (k), la varianza aumentará y el sesgo disminuirá. Por el contrario, si disminuimos (k), el sesgo aumentará y la varianza disminuirá. Generalmente se usa un CV de 10 veces pero, por supuesto, depende del tamaño de los datos de entrenamiento.