Depende de cuál sea tu clasificador. La respuesta típica a una pregunta de este tipo es la validación cruzada (validación cruzada (estadísticas)). Dividiría mis datos en 2 partes (90% para capacitación, 10% para pruebas) y lo haría 10 veces (validación cruzada 10 veces) para un rango de valores de parámetros y luego elija el mejor parámetro. Scikit learn tiene una validación cruzada incorporada (3.1. Validación cruzada: evaluación del rendimiento del estimador) para facilitarle la vida.
Por lo general, seguiría y haría una búsqueda de cuadrícula (tratar de definir un tamaño de cuadrícula razonable) e intentar encontrar una región estable en el espacio de parámetros en lugar de los mejores parámetros de rendimiento. Las regiones estables en el espacio de parámetros generalmente se generalizan bien fuera de los puntos de muestra y muestran un comportamiento menos errático.
Si quieres ponerte elegante, puedes configurar un problema de optimización genética para encontrar el mejor conjunto de parámetros. Tenga en cuenta que los algoritmos genéticos tardan un tiempo (a veces toma mucho tiempo) en converger, pero generalmente deberían funcionar mejor que la validación cruzada, especialmente si la cuadrícula definida para la búsqueda no es muy buena. Sugeriría elegir un paquete GA abierto en lugar de implementarlo.
- ¿Hay abandonos universitarios que trabajan como científicos de datos o especialistas en aprendizaje automático?
- ¿Qué son las redes amplias?
- ¿Qué son los asombrosos papeles gráficos de conocimiento?
- ¿Qué modelo da un error de predicción más bajo cuando se usa R?
- ¿Qué es un núcleo universal en el contexto del aprendizaje automático?
Mientras realiza el ajuste de parámetros, tenga en cuenta el sobreajuste.