¿Qué es la validación cruzada?

Las validaciones cruzadas son técnicas para medir la capacidad de generalización de cualquier regresión contra el sobreajuste u otras limitaciones mediante la comparación de varios modelos estadísticos, que se pueden utilizar para una mejor regresión por promedio de conjunto.

La validación convencional funciona con una sola partición de datos de muestra con un conjunto de entrenamiento y un conjunto de prueba, donde el conjunto de entrenamiento se usa para entrenar el modelo y el conjunto de prueba se usa para medir la capacidad de generalización del modelo entrenado. Por el contrario, la validación cruzada funciona con múltiples particiones de los datos de muestra para obtener más información sobre la capacidad de generalización de cualquier conjunto de datos.

  • La validación cruzada Leave-k-out omitió la observación k en cada paso y la validación cruzada k-fold utiliza una de las k submuestras divididas aleatoriamente de la muestra original en cada paso.
  • Las diferencias entre la validación cruzada de Monte Carlo (validación de submuestreo aleatorio repetido) y la validación cruzada k-fold se discuten aquí.
  • En regresión lineal, la expresión de forma cerrada para validación cruzada está disponible.
  • La validación cruzada con datos, que no son independientes, necesita validación cruzada relacionada con la dependencia, como la validación cruzada en series de tiempo, particiones de datos en diferentes segmentos de series temporales.

La validación cruzada es necesaria cuando el conjunto de datos para capacitación y pruebas es demasiado pequeño. Para evitar problemas de sobreajuste, el conjunto de datos generalmente se divide en N partes aleatorias con igual volumen. El método luego se entrena con partes N-1 y se prueba con la parte restante. La métrica general se calcula como el promedio de las métricas en el entrenamiento N veces – ejecuciones de prueba.

Es una técnica de validación modelo para evaluar cómo los resultados de un análisis estadístico se generalizarán a un conjunto de datos independiente. Se utiliza principalmente en entornos en los que se pronostica el objetivo y se desea estimar con qué precisión un modelo logrará en la práctica. El objetivo de la validación cruzada es denominar un conjunto de datos para probar el modelo en la fase de capacitación (es decir, el conjunto de datos de validación) para limitar problemas como el sobreajuste y obtener una idea de cómo el modelo se generalizará a un conjunto de datos independiente.