Lo que logran los gradientes sintéticos, que es agregar paralelismo al permitir que diferentes capas / subgráficos se actualicen sin bloquear los resultados de un avance completo y un retroceso hacia uno mismo, se está volviendo más atractivo con el tiempo. Una razón tiene que ver con la tecnología / hardware. La idea de asignar diferentes subgráficos del gráfico computacional a diferentes GPU y hacer que se comuniquen (en lugar de poner todo el modelo en una sola GPU) se ve mejor y mejor ya que tecnologías como nvlink permiten CPU GPU y GPU mucho más rápidas Comunicación GPU que PCI tradicionalmente permite. Otra razón tiene que ver con los cambios en el aprendizaje automático. La tendencia durante un tiempo ha sido que las redes más profundas muestran un mejor rendimiento (tan pronto como algunas innovaciones como las redes residuales le permitan entrenarlas con éxito), y las redes más profundas tendrán una proporción creciente de sí mismas en un estado “bloqueado” durante el backprop tradicional.
Además de la motivación, también está la cuestión de “¿cuánto estamos renunciando?”. En términos de rendimiento en CIFAR y Copy-And-Repeat, los resultados experimentales en el documento se ven realmente bien. Sin embargo, el documento parece no mencionar dos piezas críticas de información sobre “¿cuánto estamos renunciando? “. Están entrenando los modelos de los gradientes sintéticos basados en la pérdida L2 de los gradientes reales, por lo que uno se pregunta qué tan cerca están los gradientes sintéticos de los gradientes reales. Su artículo no parece incluir una curva de error de pérdida L2. Además, está la cuestión de cuántos parámetros se necesitan para los modelos de los gradientes sintéticos, que son redes neuronales. Si estos modelos necesitan ser muy sofisticados, se pierde el propósito original de ahorrar tiempo y memoria. El documento no menciona lo que están utilizando para estos modelos.
Entonces, dependiendo de la respuesta a la pregunta “¿cuánto estamos renunciando?”, Veo que el mejor escenario para los gradientes sintéticos es “el enfoque más común para entrenar arquitecturas muy profundas”. Dudo mucho que “elimine la propagación”, como su pregunta lo hace, porque la investigación de aprendizaje automático continúa, pero a menudo las personas eligen usar modelos más simples con menos partes móviles. Puedes sacar la regresión lineal de mis manos frías y muertas.
- ¿Puede LSTM u otro tipo de red neuronal recurrente aprender a extraer y representar un estado de Markov?
- ¿Hay alguna manera de probar el límite de precisión teórica para clasificar un conjunto de datos en particular? O, ¿hay alguna forma de confirmar que la calidad de los datos es insuficiente para un problema?
- Estoy usando Weka e implementé la ganancia de información forestal aleatoria usando Java. ¿Cuáles son algunos consejos sobre cómo imprimir cuántas funciones tiene después de aplicar la ganancia de información y cómo imprimir los nombres de las funciones y sus valores de ganancia de información en orden descendente (solo funciones de ganancia de información)?
- ¿Puede Naive Bayes alcanzar algún rendimiento con suficientes datos?
- ¿De qué sirve el aprendizaje automático en la predicción de resultados de cricket?