Auto-sklearn hace dos cosas más además de optimizar hiperparámetros: metaaprendizaje y construcción de conjuntos.
El metaaprendizaje en este caso significa calcular estadísticas del conjunto de datos dado, llamadas metacaracterísticas, y compararlas con una base de datos almacenada de metacaracterísticas de conjuntos de datos vistos previamente. Para aquellos conjuntos de datos que tienen meta características similares, es probable que un conjunto de hiperparámetros “cercano” funcione bien con el conjunto de datos actual. Entonces, el auto-sklearn warm inicia la optimización bayesiana, y según el documento, esto funciona bien en la práctica.
Vale la pena señalar que 15 de los 110 hiperparámetros son variables indicadoras para diferentes clasificadores, por lo que, además de sus hiperparámetros correspondientes, el auto-sklearn realmente está haciendo la selección del modelo además del ajuste del modelo, así como el preprocesamiento de características, con 14 métodos (tales como PCA) arrojado a la mezcla.
- Cómo implementar el aprendizaje sensible al costo en TensorFlow para penalizar la clasificación errónea en clases minoritarias (los datos tienen un problema de desequilibrio de clase)
- ¿Podemos aplicar el filtrado colaborativo en la recomendación de noticias de última hora en línea?
- ¿Cómo están revolucionando las redes neuronales convolucionales la visión por computadora?
- ¿Es una buena idea dejar el aprendizaje automático después de 2 años y estudiar desarrollo web, si me di cuenta de que no soy tan inteligente para todas esas matemáticas de ML?
- Si existieran interfaces neuronales, ¿cuáles serían las aplicaciones civiles? ¿Cuántos tendría, por qué?
Finalmente, auto-sklearn no solo devuelve el modelo único de mejor rendimiento. En cambio, combina los mejores modelos de rendimiento, que tuvo que entrenar de todos modos durante la optimización bayesiana, en un conjunto. Los conjuntos casi siempre funcionan mejor que los clasificadores individuales (porque cualquier error no correlacionado se puede promediar).
He intentado ejecutar auto-sklearn en algunos conjuntos de datos de referencia y, de hecho, obtuve un buen rendimiento, pero de lo contrario no tengo mucha experiencia.