¿Debemos usar el ajuste fino en redes neuronales profundas? La precisión de la clasificación es del 100%, pero después de un ajuste fino, se convierte en el 95.7%, ¿cómo llega esto?

Sí, siempre debe usar el ajuste fino después de una fase de pre-entrenamiento del curso. ¿Por qué? El ajuste fino funciona la mayoría de las veces. Normalmente encuentra un lugar que mejora aún más el rendimiento.

Esto es lo que pienso acerca de sus resultados: obtener un 100% de los datos de prueba implica que sus datos son fácilmente separables y no contienen valores atípicos / ruido, es por eso que su modelo alcanza el 100% de precisión. En configuraciones prácticas, obtener una precisión del 100% siempre significa volver al tablero de dibujo, reunir ejemplos de prueba más desafiantes y evaluar el modelo en eso. En la práctica, los datos contendrán ruido y valores atípicos, por lo que cualquier modelo, por complejo que sea, tendrá que comprometerse para obtener la mejor precisión, por lo tanto, en una configuración desafiante, obtendrá un 100% de sobreajuste de las señales de precisión.

Suponiendo que su sistema sea tan bueno en los datos de prueba, pero aún le sugiero que recopile datos de prueba más desafiantes, puedo seguir argumentando que el ajuste no debería haber reducido la precisión del 100% al 95%. El problema está en los datos de entrenamiento, validación y prueba.

Dada una función de pérdida [matemática] L [/ matemática] y algunos parámetros [matemática] w [/ matemática], los sistemas de aprendizaje automático (ML) utilizan el descenso de gradiente al calcular las derivadas de peso con respecto a la función de pérdida. Asumiendo una función de pérdida convexa, obtener una precisión del 100% significa que:

[matemáticas] L (w_0, x_ {prueba}) = \ epsilon [/ matemáticas]

Donde [math] w_0 [/ math] = parámetros antes del ajuste fino, [math] x_ {test} [/ math] = datos de prueba.

[math] \ epsilon [/ math] = valor muy pequeño (digamos simplemente cero)

La pérdida se optimiza para que esté en su punto más bajo posible. Esto significa

[matemática] \ frac {\ parcial {L (w_0, x_ {prueba})}} {\ parcial w} = \ epsilon [/ matemática]

También.

Pero

[matemáticas] L (w_0, x_ {tren}) >> \ epsilon [/ matemáticas]

Donde [math] x_ {train} [/ math] = datos de entrenamiento

Entonces, durante el ajuste fino, los gradientes también son grandes, esto empujará al modelo desde el punto dulce [matemático] w_0 [/ matemático] al siguiente punto dulce [matemático] w_1 [/ matemático] la diferencia ahora es eso.

[matemáticas] L (w_1, x_ {prueba}) >> \ epsilon [/ matemáticas]

mientras

[matemáticas] L (w_1, x_ {tren}) = \ epsilon [/ matemáticas]

La precisión de la prueba disminuye mientras que la precisión del entrenamiento aumenta. Esto significa que al intentar optimizar en [math] x_ {train} [/ math] el sistema sacrifica la precisión de la prueba porque los dos conjuntos de datos [math] x_ {train} [/ math] y [math] x_ {test} [/ matemáticas] de alguna manera cada uno representa algo diferente.

Por lo tanto, se debe tener cuidado al ajustar, ya que esto puede suceder si los datos de entrenamiento no son muy representativos de los datos de la prueba. Si los dos están menos correlacionados, entonces el sistema está optimizando para dos objetivos opuestos.

Así que le sugiero que eche un vistazo a los datos de entrenamiento y los datos de la prueba. Esto puede suceder si los datos de capacitación son pequeños y, por lo tanto, no son representativos del problema en cuestión.

Espero que esto ayude.

Supongo que por ajuste fino se refiere a algún tipo de búsqueda exhaustiva del espacio de parámetros (similar al método GridSearch de scikit-learn)

Una precisión de clasificación del 100% debería ser una señal de alerta para el sobreajuste, antes de animar la creación de un clasificador perfecto: ¿cómo se ven su matriz de confusión y las curvas ROC? No olvide que la precisión es solo una métrica de evaluación y, aunque es muy simple e interpretable, no siempre es la mejor.

Sin embargo, ¿cómo el ajuste fino de su clasificador redujo la precisión? Especialmente porque el ajuste de parámetros “asegura” puntuaciones más altas en el clasificador, ese es el punto de investigar exhaustivamente con diferentes parámetros.

Dado que el puntaje de clasificación (precisión) después de su ajuste fino sigue siendo muy alto, existe la posibilidad de que esto siga siendo una variación aleatoria, y no una preocupación real; La verdadera preocupación tiene que ser asegurarse de no sobreajustar.