La validación es como dividir un conjunto de datos en dos subconjuntos complementarios diferentes. Luego, use un subconjunto para el entrenamiento y otro subconjunto para las pruebas. El subconjunto de pruebas nunca se está entrenando aquí.
- ¿Por qué una función del núcleo debe satisfacer la condición de Mercer?
- Como principiante en Deep Learning hoy, ¿qué marco debo usar?
- ¿Cómo funcionan las redes interbancarias?
- ¿Cómo construye Apple su red neuronal para el nuevo iPhone X Face ID? Los usuarios solo registran sus caras una vez cuando configuran el teléfono inicialmente, entonces, ¿cómo podría esa foto de los usuarios ser un conjunto de entrenamiento lo suficientemente grande como para entrenar la red neuronal?
- ¿Cómo puede Machine Learning ayudar a un desarrollador de Android?
Es como dividir un conjunto de datos en k número de subconjuntos. En una época, use los subconjuntos de datos k-1 para la capacitación y use el conjunto de datos restante para las pruebas. De esta manera, para cada conjunto de datos de pruebas de época será diferente, pero estará fuera de esos k subconjuntos de datos. Esto también se llama validación cruzada de plegado en k .
Ventajas
En general, para construir los modelos de aprendizaje automático, los datos son el combustible. Es muy poco probable que podamos encontrar un conjunto de datos muy grande para construir un modelo eficiente. En caso de escasez de datos (que es la situación normal), si estamos procediendo con la validación normal, casi estamos reduciendo el tamaño del conjunto de datos en casi un 20-30%. En caso de validación cruzada k-fold , no habrá tal tipo de reducción en el tamaño del conjunto de datos. Y más al hacer k-fold cv , se puede evitar un ajuste excesivo.