Al entrenar una red neuronal, ¿es común tener un tamaño de paso diferente para los parámetros en cada capa y las compensaciones al realizar el Descenso de gradiente?

Normalmente, la mayoría de las herramientas o bibliotecas de ML permiten ajustar hiperparámetros globales, como la tasa de aprendizaje global, el tamaño del lote y el método de aprendizaje en sí.

Esto afectará a todas las capas por igual, pero es posible permitir diferentes tasas de aprendizaje por capa, pero esto puede ser posible si escribe el código usted mismo para hacerlo.

Además, si tiene diferentes tasas de aprendizaje por capa, ¿cuál sería la heurística para elegir las mejores tasas de aprendizaje por capa? Verá que esto puede causar problemas al seleccionar hiperparámetros.

El otro problema es que algunas capas pueden aprender más rápido o más lento que las otras capas, ¿cómo es eso significativo? El respaldo teórico para GD tiene solo una tasa de aprendizaje global, ¿cuál es su respaldo?

Así que mantenga las cosas simples al tener una tasa de aprendizaje para todos los pesos como se especifica en el algoritmo decente de gradiente.

Espero que esto ayude.

¿Cómo debo elegir entre SVM y árbol de decisión para un problema de clasificación?

Cómo saber qué algoritmo usar y cuándo

¿Cuáles son las buenas heurísticas para elegir el tamaño de un lote en el entrenamiento de la red neuronal?

¿Cuál es la diferencia entre la taxonomía automática y la generación de clasificación?

¿Qué técnicas utilizadas en el procesamiento del lenguaje natural son aplicables a otras áreas del aprendizaje automático?

¿Cuáles son los pasos necesarios para el análisis de sentimientos de las redes sociales?

A veces es necesario tener diferentes tamaños de paso para los parámetros en cada capa debido al problema de gradiente de fuga. Si las capas anteriores tienen un gradiente pequeño, entonces uno puede disminuir ese problema al aumentar el tamaño del paso para los gradientes anteriores. Sin embargo, esto requiere una gran cantidad de ajustes molestos de hiperparámetros. Por lo tanto, probablemente sea mejor usar una técnica como la normalización por lotes, o algo por el estilo. Eso es lo que yo diría que es necesario.

Erlend Davidson

No es exactamente “diferentes tamaños de escalones”, pero es cierto que hay optimizadores más avanzados para redes profundas. Métodos como adagrad, rmsprop y adam aplican diferentes tamaños de paso a diferentes pesos. Por lo general, esto se hace tomando algunos antecedentes recientes del cambio en cada peso en particular.

Aquí hay un enlace al documento de adagrad: http://jmlr.org/papers/v12/duchi … creo que es el mejor lugar para comenzar.

Erlend Davidson

More Interesting

¿Cuál sería la mejor manera de encontrar estudiantes universitarios interesados en un proyecto de investigación sobre la interfaz entre bioinformática y aprendizaje automático, en Johns Hopkins?

¿Qué puede hacer el aprendizaje automático además de la clasificación? ¿Hay más?

Cómo distinguir el Aprendizaje profundo de los anteriores análogos en las composiciones de funciones, más específicamente el trabajo reciente sobre el "proceso gaussiano profundo"

¿Es la memoria y la potencia informática paralela masiva del cerebro más útil para el "entrenamiento" o la "prueba"?

¿Cuál es la mejor manera para que un estudiante de CS en una universidad india obtenga una pasantía / trabajo en una compañía en el sector de Big Data y / o Machine Learning en los Estados Unidos?

¿Qué es el aprendizaje automático y sus diferencias con la inteligencia artificial?

¿Cuáles son las desventajas de usar el algoritmo clásico de árbol de decisión para grandes conjuntos de datos?

¿Cuáles son los temas candentes para la investigación en Machine Learning?

¿Por qué los LSTM generalmente se entrenan con backprop y no con EKF?