¿Cuál es la relación de la matriz de curvatura y el aprendizaje profundo?

La matriz de curvatura, propiamente conocida como la matriz de Hesse, codifica la curvatura local del espacio multidimensional donde una red neuronal “vive y aprende”. Si la matriz de Hesse se puede calcular directamente, se puede utilizar para dirigir adecuadamente el descenso del gradiente y, por lo tanto, mejorar la velocidad de aprendizaje y la convergencia.

Pero, para las redes de aprendizaje profundo, la matriz de Hesse tiende a ser enorme y se vuelve poco práctica para calcular y “mantenerse”, y también se convierte en una carga computacional para recalcularla con frecuencia para adaptarse al cambiante panorama de errores. Para estos casos (demasiado frecuentes cuando se trata con sistemas de aprendizaje profundo), se han desarrollado diferentes técnicas, denominadas colectivamente “sin arpillera”. Tienen la ventaja de ser menos pesados ​​en espacio y computación, pero también la desventaja de requerir más épocas de entrenamiento y producir una tasa de convergencia más lenta.