¿Cuáles son las ventajas y desventajas de entrenar redes neuronales artificiales a través de la propagación hacia atrás, un algoritmo probabilístico de escalada, una combinación de los dos y otros métodos si existen?

[…] El problema del tamaño del paso
El problema del tamaño del paso ocurre porque el método estándar de retropropagación computaba solo ∂E⁄∂w , la primera derivada parcial de la función de error general con respecto a cada peso en la red. Dé estos derivados, podemos realizar un descenso de gradiente en el espacio de peso, reduciendo el error con cada paso. Es sencillo mostrar que si tomamos pasos infinitesimales por el vector de gradiente, ejecutando una nueva época de entrenamiento para recalcular el gradiente después de cada paso, eventualmente alcanzaremos un mínimo local de la función de error. La experiencia ha demostrado que, en la mayoría de las situaciones, este mínimo local será también un mínimo global, o al menos una solución “suficientemente buena” para el problema en cuestión.
En un sistema de aprendizaje práctico, sin embargo, no queremos dar pasos infinitesimales; Para un aprendizaje rápido, queremos dar los pasos más grandes que podamos. Desafortunadamente, si elegimos un tamaño de paso que es demasiado grande, la red no convergerá de manera confiable a una buena solución. Para elegir un tamaño de paso razonable, necesitamos saber no solo la pendiente de la función de error, sino algo sobre sus derivadas de orden superior, su curvatura, en la vecindad del punto actual en el espacio de peso. Esta información no está disponible en el algoritmo estándar de retropropagación.
[…]
[…] El problema del objetivo móvil
Una segunda fuente de ineficiencia en el aprendizaje de propagación hacia atrás es lo que llamamos el problema del objetivo móvil . Dicho brevemente, el problema es que cada unidad en el interior de la red está tratando de evolucionar hacia un detector de características que desempeñará un papel útil en el cómputo general de la red, pero su tarea es muy complicada por el hecho de que todas las demás unidades están cambiando al mismo tiempo. Las unidades ocultas en una capa dada de la red [neural artificial] [trabajo] no pueden comunicarse entre sí directamente; cada unidad solo ve sus entradas y la señal de error se propaga a ella desde las salidas de la red. La señal de error define el problema que la unidad está tratando de resolver, pero este problema cambia constantemente. En lugar de una situación en la que cada unidad se mueve rápida y directamente para asumir un papel útil, vemos un baile complejo entre todas las unidades que lleva mucho tiempo asentarse.
Muchos experimentadores han informado que el aprendizaje de backprop se ralentiza dramáticamente (quizás exponencialmente) a medida que aumentamos el número de capas ocultas en la red. En parte, esta desaceleración se debe a una atenuación y dilución de la señal de error a medida que se propaga hacia atrás a través de las capas de la red. Creemos que otra parte de esta desaceleración se debe al efecto de objetivo en movimiento. Las unidades en las capas interiores de la red [neural artificial] [trabajo] ven una imagen en constante cambio a medida que evolucionan las unidades aguas arriba y aguas abajo, y esto hace imposible que dichas unidades se muevan decisivamente hacia una buena solución.
Una manifestación común del problema del objetivo móvil es lo que llamamos el efecto rebaño . Supongamos que tenemos dos subtareas computacionales separadas, A y B, que deben realizar las unidades ocultas en una red. Supongamos que tenemos varias unidades ocultas, cualquiera de las cuales podría manejar cualquiera de las dos tareas. Dado que las unidades comunes se comunican entre sí, cada unidad debe decidir independientemente cuál de los dos problemas abordará. Si la tarea A genera una señal de error más grande o más coherente que la tarea B, existe una tendencia para que todas las unidades se concentren en A e ignoren B. Una vez que se resuelve el problema A, de forma redundante, las unidades pueden ver la tarea B como el único remanente fuente de error Sin embargo, si todos comienzan a moverse hacia B a la vez, el problema A reaparece. En la mayoría de los casos, el “rebaño” de unidades eventualmente se dividirá y se ocupará de ambas subtareas a la vez, pero puede haber un largo período de indecisión antes de que esto ocurra. Los pesos en una red de backprop reciben valores iniciales aleatorios para evitar que todas las unidades se comporten de manera idéntica, pero esta variabilidad inicial tiende a disiparse a medida que se entrena la red.

Backprop es una forma muy simple y eficiente de calcular el gradiente en una red neuronal y se puede usar junto con el descenso de gradiente estocástico, que también es bastante simple. Hay técnicas más complejas de “cuasi-Newton” que hacen una mejor estimación de la dirección del gradiente y el tamaño del paso, pero en los ejemplos que he visto no funcionan mejor que el backprop y el SGD.