Andrew Ng: ¿Por qué ya no es necesario entrenar capas a través de codificadores automáticos para Deep Learning?

Razones

  • Mejor función de activación, con buenas propiedades (relu, Lrelu)
  • Resolver desplazamiento de covariable (normalización por lotes)
  • Mejor método de optimización (Adam)
  • El bloqueo residual permite profundizar, muy profundo.

Todas estas técnicas realmente ayudaron al proceso de optimización hasta el punto de que el nuevo desafío de investigación ya no se trata de la desaparición del gradiente.

Experiencia

Un ejemplo simple de juguete que todos pueden probar es ejecutar dos mismos modelos con diferentes hiperparámetros en el conjunto de datos MNIST. La arquitectura es una red neuronal de una profundidad con pérdida de entropía cruzada.

  • Experiencia 1 : descenso gradiente estocástico independiente y sigmoide

  • Experiencia 2 : Adam optimizer plus relu como la activación de la capa intermedia.

Creo que las curvas hablan por sí mismas …

More Interesting

¿El error de clasificación de las redes neuronales se denomina "tasa de error"?

¿Por qué la inferencia exacta en una red bayesiana es intratable?

¿Cuál es el mejor enfoque para la ubicación geográfica del dispositivo de clúster por cliente?

¿Cómo 'Diagonal BiLSTM' calcula los estados diagonales a la vez y qué es diagonal?

¿Cuáles son las aplicaciones HOT de Machine Learning para las ciencias biológicas?

En el modelado de datos, ¿podría ser una buena idea crear algorítmicamente una característica grande para activar las meta características actuales antes del modelado?

¿Cuál es la mejor manera de aprender Python si mi objetivo es usarlo específicamente para el aprendizaje automático?

¿Cuál es el significado físico de usar SVD / NMF en una matriz de correlación espacial?

¿Hay algún programa en desarrollo que pueda escuchar un idioma y comenzar a aprenderlo, como en Star Trek?

¿Por qué son importantes las redes de confrontación generativas?

¿Puede el conocimiento del dominio ayudar a usar menos datos de entrenamiento, cuando se entrena una red neuronal convolucional para una aplicación específica?

Si ya hemos conocido una función, ¿podemos generar una red neuronal para la inferencia, sin pasar por el proceso de capacitación que consume tiempo y energía?

¿Qué llamarías técnicas de aprendizaje no automático?

¿Cómo y cuándo morirá la inteligencia de negocios convencional?

¿Cuándo se deben usar modelos generativos y no modelos discriminativos?