Al entrenar una red neuronal, ¿es común tener un tamaño de paso diferente para los parámetros en cada capa y las compensaciones al realizar el Descenso de gradiente?

Normalmente, la mayoría de las herramientas o bibliotecas de ML permiten ajustar hiperparámetros globales, como la tasa de aprendizaje global, el tamaño del lote y el método de aprendizaje en sí.

Esto afectará a todas las capas por igual, pero es posible permitir diferentes tasas de aprendizaje por capa, pero esto puede ser posible si escribe el código usted mismo para hacerlo.

Además, si tiene diferentes tasas de aprendizaje por capa, ¿cuál sería la heurística para elegir las mejores tasas de aprendizaje por capa? Verá que esto puede causar problemas al seleccionar hiperparámetros.

El otro problema es que algunas capas pueden aprender más rápido o más lento que las otras capas, ¿cómo es eso significativo? El respaldo teórico para GD tiene solo una tasa de aprendizaje global, ¿cuál es su respaldo?

Así que mantenga las cosas simples al tener una tasa de aprendizaje para todos los pesos como se especifica en el algoritmo decente de gradiente.

Espero que esto ayude.

A veces es necesario tener diferentes tamaños de paso para los parámetros en cada capa debido al problema de gradiente de fuga. Si las capas anteriores tienen un gradiente pequeño, entonces uno puede disminuir ese problema al aumentar el tamaño del paso para los gradientes anteriores. Sin embargo, esto requiere una gran cantidad de ajustes molestos de hiperparámetros. Por lo tanto, probablemente sea mejor usar una técnica como la normalización por lotes, o algo por el estilo. Eso es lo que yo diría que es necesario.

No es exactamente “diferentes tamaños de escalones”, pero es cierto que hay optimizadores más avanzados para redes profundas. Métodos como adagrad, rmsprop y adam aplican diferentes tamaños de paso a diferentes pesos. Por lo general, esto se hace tomando algunos antecedentes recientes del cambio en cada peso en particular.

Aquí hay un enlace al documento de adagrad: http://jmlr.org/papers/v12/duchi … creo que es el mejor lugar para comenzar.

More Interesting

¿Cuál sería la mejor manera de encontrar estudiantes universitarios interesados ​​en un proyecto de investigación sobre la interfaz entre bioinformática y aprendizaje automático, en Johns Hopkins?

¿Qué puede hacer el aprendizaje automático además de la clasificación? ¿Hay más?

Cómo distinguir el Aprendizaje profundo de los anteriores análogos en las composiciones de funciones, más específicamente el trabajo reciente sobre el "proceso gaussiano profundo"

¿Es la memoria y la potencia informática paralela masiva del cerebro más útil para el "entrenamiento" o la "prueba"?

¿Cuál es la mejor manera para que un estudiante de CS en una universidad india obtenga una pasantía / trabajo en una compañía en el sector de Big Data y / o Machine Learning en los Estados Unidos?

¿Qué es el aprendizaje automático y sus diferencias con la inteligencia artificial?

¿Cuáles son las desventajas de usar el algoritmo clásico de árbol de decisión para grandes conjuntos de datos?

¿Cuáles son los temas candentes para la investigación en Machine Learning?

¿Por qué los LSTM generalmente se entrenan con backprop y no con EKF?

¿Cuántos datos necesitamos para pensar siquiera en aplicar el aprendizaje profundo?

Cómo utilizar una GPU en mis algoritmos de aprendizaje automático de R

¿Cuál es la tasa de error de trama (FER) en las tareas de reconocimiento de voz?

¿Cuáles son algunos buenos ejemplos donde el agrupamiento se usa como método para la extracción de características?

¿Cuál es el estándar de JMLR contra documentos en ICML y NIPS?

¿Vale la pena aprender Machine Learning (y AI) si quiero seguir la carrera de Ingeniero Embebido?