¿Debo usar la validación cruzada k-fold para un clasificador de bosque aleatorio? La tecnología cambia la vida futura

¿Debo usar la validación cruzada k-fold para un clasificador de bosque aleatorio?

No sé exactamente lo que estás haciendo, por lo que es difícil saber dónde han ido mal las cosas, pero aquí están mis pensamientos.

En primer lugar, Random Forest no suele tardar semanas en entrenarse, por lo que se recomienda validarlo correctamente y no solo cortar sus datos en un conjunto de entrenamiento y prueba una vez, ya que k-fold CV es mucho más confiable .

Esa caída de recuerdo es realmente muy grande, así que sí, su modelo probablemente esté sobreajustado para su conjunto de pruebas. No puede ignorar el resultado del CV de k-fold: indica un problema. Intentemos averiguar cuál es el problema.

Aquí hay una cosa con el sobremuestreo: debe hacerlo después de haber dividido sus datos en un conjunto de entrenamiento y un conjunto de pruebas. Si primero sobremuestra la clase minoritaria, está filtrando información sobre el conjunto de pruebas de su modelo, especialmente si su estrategia de sobremuestreo es simplemente duplicar las entidades. Su conjunto de pruebas podría (y probablemente lo hará) compartir algunos puntos de datos con su conjunto de entrenamiento, lo que conduce a un sobreajuste.

Aquí hay una ilustración de la forma incorrecta de sobremuestreo:

Aquí está la manera correcta:

Tengo la sensación de que ha filtrado información al dividir los datos una vez, pero logró hacer la validación cruzada correctamente. Eso explicaría la diferencia en las tasas de recuerdo observadas.

Por cierto, las fotos están tomadas de un artículo de Marco Altini, que le sugiero que lea – Tratamiento de datos desequilibrados: submuestreo, sobremuestreo y validación cruzada adecuada.

Buena suerte resolviendo tu problema.