Los resultados de la búsqueda en la cuadrícula le muestran si sus resultados aún pueden mejorarse o no. Por ejemplo, cuando ajusto los parámetros de un clasificador SVM, primero empiezo con la elección del núcleo. Cuando veo que un kernel cuadrático funciona mejor que su contraparte lineal, verifico si un kernel cúbico logra un rendimiento aún mejor. Si este no es el caso, se puede inferir razonablemente que un núcleo cuadrático es la mejor opción para el conjunto de datos dado. Posteriormente, utilizo el mismo enfoque para el parámetro de compensación C. Desde mi experiencia personal, este enfoque hace un buen trabajo al ajustar los parámetros.
Sin embargo, al optimizar su algoritmo para los datos disponibles, debe tener en cuenta dos cosas:
- Sobreajuste: Lograr el mejor resultado posible para los datos disponibles no significa que haya encontrado el mejor algoritmo. La idea del aprendizaje automático es poder predecir la clase de nuevas instancias. Cuando los algoritmos se sobreajustan, han inferido demasiado de los datos disponibles, lo que significa que es menos probable que predigan la clase de nuevas instancias correctamente (aquí se explica una explicación más detallada de este problema: ¿Qué es el sobreajuste?).
- Complejidad computacional: a menudo, los algoritmos sofisticados solo funcionan un poco mejor, incluso si requieren mucho más tiempo para ser entrenados. ¿Vale la pena el aumento del porcentaje de instancias correctamente clasificadas del 90,1% al 90,3% del tiempo extra que se necesita para entrenar al clasificador?
El problema del sobreajuste y la complejidad computacional muestran que el ajuste de parámetros produce compensaciones. Cuando desee saber si se requiere una mayor optimización de los parámetros, puede ser útil hacerse las siguientes preguntas:
- ¿Cómo explicaría la desigualdad de Hoeffding y, como consecuencia natural, la dimensión Vapnik Chervonenkis a un niño de diez años?
- ¿Las startups prefieren alojar o licenciar software de aprendizaje automático?
- ¿Por qué la distribución previa no tiene mucho impacto en la distribución posterior cuando tenemos muchos datos?
- ¿Qué es un modelo oculto de Markov - Red neuronal artificial (HMM-ANN)?
- En el aprendizaje profundo, ¿son el "aprendizaje incremental" y el "aprendizaje de transferencia" el mismo enfoque?
¿Cuál es el propósito del algoritmo? ¿Está clasificando correctamente tantas instancias como sea posible o tiene una alta tasa de recuperación para la primera clase?
¿Un ajuste adicional ayuda al algoritmo a mejorar en esta tarea? ¿La elección actual de parámetros permite entrenar el algoritmo en un tiempo razonable?