¿Cómo deciden los científicos computacionales qué estrategia usar para la validación cruzada?

Consideremos un problema de 2 clases y la misma distribución para los datos de entrenamiento y prueba.

La validación cruzada de K-fold (CV) puede fallar si durante la formación de pliegues, el conjunto de validación no contiene ninguna muestra de la clase negativa y el conjunto de entrenamiento contiene solo las muestras positivas. Para evitarlo, puede hacer un CV K-fold estratificado para asegurar un número proporcional de muestras en el conjunto de capacitación y validación. Diferentes experimentos de validación cruzada de 10 veces con el mismo método de aprendizaje y conjunto de datos a menudo producen resultados diferentes, debido al efecto de la variación aleatoria en la elección de los propios pliegues. La estratificación reduce la variación, pero no puede eliminarla por completo.

Dejar una salida es mejor porque obtienes el máximo número de datos para el entrenamiento; sin embargo, el costo es una cantidad excesiva de capacitación requerida (para datos con 1000 muestras, debe hacerlo 1000 veces). Una situación muy dramática puede ocurrir cuando, digamos, los datos se generan aleatoriamente, y lo mejor que puede hacer un clasificador es predecir la clase mayoritaria, por lo tanto, una tasa de error del 50%. Pero en cada pliegue de dejar uno afuera, la clase opuesta a la instancia de prueba es la mayoría, y por lo tanto las predicciones siempre serán incorrectas, lo que lleva a una tasa de error estimada del 100%. Leave-one-out no se puede estratificar porque solo hay una muestra para analizar.

Típicamente, se emplea 10 veces 10 CV estratificadas.

Idealmente, siempre usarías tantos pliegues como sea posible. Para la mayoría de las tareas, eso significa que dejar uno es el mejor caso posible.

Sin embargo, esto también lleva más tiempo. Dependiendo del tamaño del conjunto de datos, el algoritmo utilizado y la cantidad de valores de parámetros que queremos verificar, podríamos querer algo más rápido. Además, si asumimos que los datos son algo suaves, no esperamos grandes cambios al aumentar el número de pliegues. Para fines académicos, a menudo usamos validación cruzada 10 veces.

También puede usar la validación cruzada 10 veces para tener una buena idea de en qué rango están los valores óptimos de los parámetros, y luego usar dejar una salida en un conjunto de valores más pequeño y preciso. Esta es una manera de pasar el tiempo de manera más eficiente.

More Interesting

¿Conoces algún software que implemente cálculos de los últimos k vectores singulares de matriz dispersa de entrada? Solía ​​irlba, pero que yo sepa, solo calcula los primeros k vectores singulares

¿Puede ocurrir un sobreajuste en un algoritmo de aprendizaje no supervisado?

Tengo un conjunto de puntos 3D y cada uno tiene una puntuación. ¿Cómo encuentro / busco un grupo denso de puntos de alta puntuación?

¿Existe alguna relación entre la asignación de Dirichlet latente y los procesos de dirichlet?

¿Qué teoría debería aprender a crear un algoritmo para clasificar los textos automáticamente?

¿Qué significa decir que las redes neuronales convolucionales comparten cálculos comunes a las regiones superpuestas?

¿Debería haber una relación específica entre el número de características y el número de clases? Si tengo 15 funciones pero 50 clases con 1000 datos de entrenamiento, ¿tendré un problema de sobreajuste? ¿Y cuál es la mejor técnica de clasificación para esta relación?

¿Cuál es la naturaleza de la red neuronal multicapa en el aprendizaje Deep Q?

¿La segmentación de palabras chinas se considera un problema resuelto?

¿Cuál es el mejor artículo para entender cómo se mapea el vector de salida de RNN con un vocabulario para predecir la secuencia?

¿Existen aplicaciones para bandidos multi armados en el campo de aprendizaje profundo?

¿Qué le parece más interesante: el análisis de series temporales o el aprendizaje automático? ¿Por qué?

¿Cuáles son algunos pequeños proyectos iniciales en aprendizaje automático de regresión lineal que un principiante puede hacer en 2-3 días?

¿Qué son los algoritmos recurrentes de redes neuronales?

Si las redes neuronales son opacas y poco entendidas, ¿cómo pueden los ingenieros mejorar aún más el modelo de aprendizaje automático?