La selección de su modelo final de aprendizaje automático es una parte vital de su proyecto.
El uso de la métrica precisa y el paradigma de selección puede dar muy buenos resultados, incluso si utiliza un algoritmo de aprendizaje muy simple o incluso incorrecto. Aquí, explico una manera muy parsimoniosa y plana.
La métrica que elija depende de sus expectativas de fin de problema. Algunas alternativas comunes son la puntuación F1 (combinación de precisión y recuperación), precisión (proporción de instancias clasificadas correctamente para todas las instancias), curva ROC o tasa de error (precisión 1).
Por ser un ejemplo, uso la tasa de error (en la siguiente figura). Primero divida los datos en 3 como conjunto de trenes, conjunto extendido, conjunto de prueba. Utilizaremos el conjunto extendido como una guía objetiva de los hiperparámetros de su algoritmo. También es posible que prefiera usar la validación X de K-fold, pero mi elección es mantener un conjunto extendido, si tengo suficiente número de instancias.
- ¿Cuáles son algunos paquetes de software populares para modelos gráficos?
- ¿Cuál es la diferencia entre el análisis factorial y el análisis de conglomerados?
- ¿Cuál es el mapa de ruta para un chico universitario para una carrera de aprendizaje automático y competir en Kaggle?
- ¿Existe un sistema de IA más eficiente que el Watson de IBM?
- Cómo crear un algoritmo de clasificación eficiente y preciso tan rápido como pueda
El siguiente procedimiento se puede utilizar para la selección de parámetros y la selección del modelo final. La idea es trazar el rendimiento del modelo con las líneas de precisión de plegado de prueba (conjunto extendido) y la precisión de plegado del tren. Esta gráfica debe cumplirse en un cierto punto donde ambas curvas sean consistentes en algún sentido (los puntajes del pliegue de entrenamiento y del pliegue de prueba están en niveles razonables) y después de un ligero paso comienzan a alejarse el uno del otro (el puntaje del pliegue del tren aún aumenta y el puntaje del pliegue de prueba comienza a reducirse). Este efecto desviador puede ser insuficiente o después de numerosas iteraciones de aprendizaje que probablemente sean demasiado adecuadas. Elija el mejor punto de compensación en la trama como el modelo correcto.
Ejemplo con una tasa de error que no se confunde con los valores decrecientes, por lo tanto, más bajo es mejor en ese sentido. El punto firmado es el punto de saturación donde los datos comienzan a sobre ajustarse.
Otra advertencia, no use tantos pliegues para la validación x ya que algunos de los documentos (que no pueden aparecer ahora :(), es probable que el comportamiento asintótico de la validación cruzada promocione un ajuste excesivo, por lo tanto, el uso de omisión múltiple procedimiento en lugar de dejar uno fuera si propone utilizar un número de pliegue grande.