Para la validación cruzada K-fold, ¿qué k se debe seleccionar?

La respuesta de Warren cubre los conceptos básicos: menor K = más barato, menos varianza, más sesgo, mientras que mayor K = más caro, más varianza y menor sesgo. Añadiría que puede reducir la varianza sin aumentar el sesgo repitiendo la validación cruzada con la misma K pero con diferentes pliegues aleatorios y luego promediando los resultados; Por supuesto, esto es aún más caro. Esta posibilidad también se discute en Kohavi (1995).

También agregaría que, además de elegir K, la cuestión de cómo elegir los parámetros de ajuste mediante validación cruzada está lejos de resolverse. No solo se trata de elegir k, sino también de cómo elegir el parámetro de ajuste dados los errores de validación cruzada. Los estadísticos en Stanford están a favor de la regla de “un error estándar” descrita en ESL (p. 266):

A menudo se usa una regla de “error de un estándar” con validación cruzada, en la que elegimos el modelo más parsimonioso cuyo error no es más que un error estándar por encima del error del mejor modelo.
Cómo decidir qué datos recopilar al construir un modelo predictivo
¿Qué big data necesito aprender? Soy un vendedor digital.
¿Qué subcampos de aprendizaje automático son los más cercanos a aquellos con experiencia en mecánica de fluidos?
¿Qué área dentro de la ciencia de datos experimentará el mayor crecimiento laboral para los profesionales de análisis? (cuidado de la salud, riesgo, financiero, etc.)
Quiero aprender por mi cuenta Big data / Hadoop. ¿Cuál debería ser el enfoque más eficiente?

En este ejemplo, también tomado de ESL, estamos eligiendo el tamaño del subconjunto en la regresión del mejor subconjunto mediante validación cruzada. El modelo con el mejor error de CV promedio es el modelo con el tamaño del subconjunto 10. Sin embargo, dado que el modelo con el tamaño 9 viene dentro de un error estándar del mínimo error medio de CV, la regla de “error de un estándar” nos dice que elija el modelo de tamaño 9 en su lugar.

Hace varios años, le pregunté a Trevor Hastie (uno de los autores de ESL) sobre la justificación teórica de esta regla. ¿Por qué es mejor que simplemente elegir el mínimo? ¿Y por qué usar un error estándar en particular? ¿Por qué no usar la mitad de un error estándar o dos errores estándar? Hastie respondió que la regla de “un error estándar” no era más que una regla general que funcionaba bien en la práctica, y agregó que el tema de la selección del modelo a través de la validación cruzada ciertamente podría requerir más investigación.

Aprendizaje automáticoCiencia de datosestadísticasMinería de datosValidación