¿Cómo funciona el método de daño cerebral óptimo?

OBD es un método para eliminar pesos de un MLP sin reducir significativamente el rendimiento de clasificación y mejorar el rendimiento computacional de la red.

Encuentra pesas que tienen baja ‘notoriedad’, lo que significa pesas que si se configuran a cero tendrán el menor efecto en el error de entrenamiento. LeCun y col. cree una fórmula para medir objetivamente la prominencia de cada parámetro de peso [1].

Esta fórmula hace algunas aproximaciones.

Primero, supone que el cambio en el error, \ sigma E, contribuido por ‘perturbar’ varios pesos es la suma del error de ‘perturbar’ cada peso individualmente. LeCun y col. refiérase a esto como la ‘aproximación diagonal’ y esto supone que no hay correlaciones cruzadas entre las ‘perturbaciones’ de pesos múltiples.

En segundo lugar, la aproximación “cuadrática” supone que el error, E, es casi cuadrático y, por lo tanto, la Serie Taylor puede aproximarlo al segundo orden.

Después de estas aproximaciones, tendrá una fórmula simple relacionada con cómo cambia el error con respecto a las ‘perturbaciones’ de la red de vectores de peso. Tenga en cuenta que esta fórmula solo se aplica a una red capacitada que ha convergido a un mínimo local.

Dado que la fórmula se basa en los términos diagonales del Hessian para cada parámetro de peso, se usa una fórmula muy similar a la propagación hacia atrás donde primero se encuentran los términos diagonales de los pesos en las capas de salida y luego se calculan los pesos de la capa anterior, etc.

Entonces, una vez que tenga las saliencias, clasifique los pesos en orden ascendente y elimine los que tengan la saliencia más baja y vuelva a entrenar la red y repita el proceso nuevamente.

[1] http://citeseer.ist.psu.edu/view…