¿Cuál es la diferencia entre evaluación y validación en el aprendizaje automático?

Respuesta corta

La validación se utiliza para ajustar los hiperparámetros del modelo y se realiza en el conjunto de validación cruzada.

La evaluación se utiliza para probar el rendimiento final del algoritmo y se realiza en el conjunto de prueba.

Respuesta más larga

Cuando está entrenando un modelo de aprendizaje automático, hay varios hiperparámetros. Por ejemplo, cuando estás entrenando una red neuronal, hay hiperparámetros como:

  • Profundidad de red
  • Ancho de cada capa
  • Tasa de aprendizaje

Por supuesto, hay varios parámetros de peso, pero esos son ‘parámetros’. Aquí estamos hablando de ‘hiperparámetros’. Los hiperparámetros en cierto sentido definen la ‘estructura’ del modelo de aprendizaje automático. Para un parámetro de peso, puede tener un gran conjunto de opciones, sin embargo, para la profundidad de la red, tiene algunas opciones. Por ejemplo, para una red profunda simple, puede probar profundidad = 2 o 4 u 8.

Para decidir el valor de los hiperparámetros, el proceso general consiste en separar una parte de los datos que se nos proporcionan como datos de validación cruzada. Luego elegimos un conjunto de hiperparámetros (por ejemplo, profundidad = 1, ancho = 100, tasa de aprendizaje = 0.01) y entrenamos la red. Hacemos esto para todas las combinaciones posibles de hiperparámetros que consideramos relevantes. Por ejemplo, podemos intentar profundidad = 1, ancho = 50, tasa de aprendizaje = 0.01 también. En general, las combinaciones posibles no son demasiadas y, en la práctica, variamos los hiperparámetros en escala logarítmica. Por ejemplo, tiene sentido intentar una tasa de aprendizaje = 0.01 y luego una tasa de aprendizaje = 0.1. En general, no intentaremos una tasa de aprendizaje = 0.01 y 0.012 porque esos valores están bastante cerca y es poco probable que obtengamos una diferencia significativa en el rendimiento entre los dos.

Luego ejecutamos cada uno de los modelos obtenidos en los datos de validación cruzada y vemos qué conjunto de hiperparámetros nos da los mejores resultados. Finalmente, ese conjunto de hiperparámetros se elige para el modelo final. Este proceso de elegir hiperparámetros se llama validación.

Una vez que este proceso se ha realizado durante un número suficiente de veces, el rendimiento final del algoritmo se prueba en datos de prueba intactos para ver qué tan bien el modelo es capaz de generalizar. Esto se llama como evaluación.