Para la validación cruzada K-fold, ¿qué k se debe seleccionar?

La respuesta de Warren cubre los conceptos básicos: menor K = más barato, menos varianza, más sesgo, mientras que mayor K = más caro, más varianza y menor sesgo. Añadiría que puede reducir la varianza sin aumentar el sesgo repitiendo la validación cruzada con la misma K pero con diferentes pliegues aleatorios y luego promediando los resultados; Por supuesto, esto es aún más caro. Esta posibilidad también se discute en Kohavi (1995).

También agregaría que, además de elegir K, la cuestión de cómo elegir los parámetros de ajuste mediante validación cruzada está lejos de resolverse. No solo se trata de elegir k, sino también de cómo elegir el parámetro de ajuste dados los errores de validación cruzada. Los estadísticos en Stanford están a favor de la regla de “un error estándar” descrita en ESL (p. 266):

A menudo se usa una regla de “error de un estándar” con validación cruzada, en la que elegimos el modelo más parsimonioso cuyo error no es más que un error estándar por encima del error del mejor modelo.

En este ejemplo, también tomado de ESL, estamos eligiendo el tamaño del subconjunto en la regresión del mejor subconjunto mediante validación cruzada. El modelo con el mejor error de CV promedio es el modelo con el tamaño del subconjunto 10. Sin embargo, dado que el modelo con el tamaño 9 viene dentro de un error estándar del mínimo error medio de CV, la regla de “error de un estándar” nos dice que elija el modelo de tamaño 9 en su lugar.

Hace varios años, le pregunté a Trevor Hastie (uno de los autores de ESL) sobre la justificación teórica de esta regla. ¿Por qué es mejor que simplemente elegir el mínimo? ¿Y por qué usar un error estándar en particular? ¿Por qué no usar la mitad de un error estándar o dos errores estándar? Hastie respondió que la regla de “un error estándar” no era más que una regla general que funcionaba bien en la práctica, y agregó que el tema de la selección del modelo a través de la validación cruzada ciertamente podría requerir más investigación.

Ron Kohavi (1995) tiene un artículo bien citado que cubre este tema. No tengo tiempo para hacerle justicia en este momento.

La idea básica es que un K más bajo suele ser más barato y más sesgado. Una K más grande es más costosa (a menos que pueda integrarla hábilmente en su proceso de adaptación), menos sesgada, pero puede sufrir una gran variabilidad. Esto a menudo se cita con la conclusión de usar k = 10.

Sin saber qué datos está extrayendo o qué está buscando en los datos y solo teniendo experiencia con k plegado en Visión artificial, busqué en la literatura lo que pensé que podría ser importante. Estos deberían darle una idea de un lugar para comenzar.

Usando Google Scholar me quedé por:
(“valores k” Y plegado) AND (“minería de datos”) AND (“tamaño de datos”)
pruebe también: ((“k fold”) Y “minería de datos”)

En Inicio – PubMed – NCBI una búsqueda de: ((“k fold”) Y “minería de datos”)

dio 7 resultados con 5 textos completos gratis.

No creo que los paréntesis alrededor de la primera declaración mantengan los “Valores K plegados”) actuando como un solo término con los otros dos términos

https://scholar.google.com/schol

Elegir K afectará tu varianza. Si k es alto, entonces reduce su estimación de varianza. Más allá de eso, si elige k pequeño, entonces su alumno puede no incluir suficientes datos en su conjunto de entrenamiento, pero esto depende de su grupo de observaciones.

Puede experimentar con diferentes K y probar para ver si hay una diferencia para su conjunto de datos. Posiblemente hay muchos estudios sobre el tema, pero creo que necesitaría encontrar algo relevante para el dominio.

10 es un número popular para k pero no hay bala de plata. Siempre intente valores múltiples para k y elija cuál funciona mejor.