Consideremos un problema de 2 clases y la misma distribución para los datos de entrenamiento y prueba.
La validación cruzada de K-fold (CV) puede fallar si durante la formación de pliegues, el conjunto de validación no contiene ninguna muestra de la clase negativa y el conjunto de entrenamiento contiene solo las muestras positivas. Para evitarlo, puede hacer un CV K-fold estratificado para asegurar un número proporcional de muestras en el conjunto de capacitación y validación. Diferentes experimentos de validación cruzada de 10 veces con el mismo método de aprendizaje y conjunto de datos a menudo producen resultados diferentes, debido al efecto de la variación aleatoria en la elección de los propios pliegues. La estratificación reduce la variación, pero no puede eliminarla por completo.
Dejar una salida es mejor porque obtienes el máximo número de datos para el entrenamiento; sin embargo, el costo es una cantidad excesiva de capacitación requerida (para datos con 1000 muestras, debe hacerlo 1000 veces). Una situación muy dramática puede ocurrir cuando, digamos, los datos se generan aleatoriamente, y lo mejor que puede hacer un clasificador es predecir la clase mayoritaria, por lo tanto, una tasa de error del 50%. Pero en cada pliegue de dejar uno afuera, la clase opuesta a la instancia de prueba es la mayoría, y por lo tanto las predicciones siempre serán incorrectas, lo que lleva a una tasa de error estimada del 100%. Leave-one-out no se puede estratificar porque solo hay una muestra para analizar.
- ¿Cómo agrega Quora el aprendizaje automático a su aplicación web?
- ¿Los centros de datos cambiarán a procesadores personalizados para aplicaciones de aprendizaje automático?
- Cómo usar OpenCV en combinación con Scikit-learn
- Cómo adaptar el filtrado colaborativo para un sistema de recomendación si solo tiene datos de compra a nivel de pedido y no datos a nivel de usuario
- ¿Cómo creo un conjunto de datos como MNIST para reconocer caracteres de otro idioma? Tengo un conjunto de datos como una carpeta de imágenes. ¿Cómo uso eso en Tensorflow?
Típicamente, se emplea 10 veces 10 CV estratificadas.