Andrew Ng: ¿Por qué ya no es necesario entrenar capas a través de codificadores automáticos para Deep Learning?

Razones

Mejor función de activación, con buenas propiedades (relu, Lrelu)
Resolver desplazamiento de covariable (normalización por lotes)
Mejor método de optimización (Adam)
El bloqueo residual permite profundizar, muy profundo.

Todas estas técnicas realmente ayudaron al proceso de optimización hasta el punto de que el nuevo desafío de investigación ya no se trata de la desaparición del gradiente.

Experiencia

Un ejemplo simple de juguete que todos pueden probar es ejecutar dos mismos modelos con diferentes hiperparámetros en el conjunto de datos MNIST. La arquitectura es una red neuronal de una profundidad con pérdida de entropía cruzada.

Experiencia 1 : descenso gradiente estocástico independiente y sigmoide

Experiencia 2 : Adam optimizer plus relu como la activación de la capa intermedia.

Creo que las curvas hablan por sí mismas …

Related Content

¿Es posible aplicar las técnicas de N-gram para el análisis de sentimientos?

He completado el curso para el aprendizaje automático. Quiero hacer un proyecto corto sobre aprendizaje automático. Actualmente estoy haciendo BE en CS. ¿Qué materia debo elegir?

¿Cómo se ve afectada la propagación hacia atrás en NN recurrentes?

¿Cómo seleccionaría los datos para capacitar y probar los modelos?

Quiero aprender Python para el análisis de datos y el aprendizaje automático. ¿De dónde debería comenzar?

Cómo compartir la pantalla de mi iPhone con mi televisor inteligente LG

¿Qué es una capa de disminución de resolución en la red neuronal convolucional (CNN)?

More Interesting

¿El error de clasificación de las redes neuronales se denomina "tasa de error"?

¿Por qué la inferencia exacta en una red bayesiana es intratable?

¿Cuál es el mejor enfoque para la ubicación geográfica del dispositivo de clúster por cliente?

¿Cómo 'Diagonal BiLSTM' calcula los estados diagonales a la vez y qué es diagonal?

¿Cuáles son las aplicaciones HOT de Machine Learning para las ciencias biológicas?

En el modelado de datos, ¿podría ser una buena idea crear algorítmicamente una característica grande para activar las meta características actuales antes del modelado?

¿Cuál es la mejor manera de aprender Python si mi objetivo es usarlo específicamente para el aprendizaje automático?

¿Cuál es el significado físico de usar SVD / NMF en una matriz de correlación espacial?

¿Hay algún programa en desarrollo que pueda escuchar un idioma y comenzar a aprenderlo, como en Star Trek?

¿Por qué son importantes las redes de confrontación generativas?

¿Puede el conocimiento del dominio ayudar a usar menos datos de entrenamiento, cuando se entrena una red neuronal convolucional para una aplicación específica?

Si ya hemos conocido una función, ¿podemos generar una red neuronal para la inferencia, sin pasar por el proceso de capacitación que consume tiempo y energía?

¿Qué llamarías técnicas de aprendizaje no automático?

¿Cómo y cuándo morirá la inteligencia de negocios convencional?

¿Cuándo se deben usar modelos generativos y no modelos discriminativos?

Web Analytics