En el aprendizaje profundo, ¿se pueden obtener buenos resultados cuando usas una función lineal entre las capas ocultas?

Si sus activaciones son lineales, su modelo es lineal, entonces no.

Para entender por qué, supongamos que tiene una red de alimentación de una capa [math] y = f (\ mathbf {x}) [/ math] con activaciones lineales,

[matemáticas] f (\ mathbf {x}) = a_2 (W_2 \ cdot a_1 (W_1 \ mathbf {x} + \ mathbf {b} _1) + \ mathbf {b} _2), [/ math]

donde [math] a_1, \ a_2 [/ math] son ​​funciones de activación, [math] \ mathbf {x}, \ \ mathbf {b} _1, \ \ mathbf {b} _2 [/ math] son ​​vectores y [math] W_1, W_2 [/ math] son ​​matrices. Para simplificar, permita que cada activación multiplique la entrada por [math] 1 [/ math]. Luego

[matemáticas] f (\ mathbf {x}) = W_2 \ cdot (W_1 \ mathbf {x} + \ mathbf {b} _1) + \ mathbf {b} _2 = W \ mathbf {x} + \ mathbf {b} [/mates]

donde [matemática] W = W_2 W_1 [/ matemática] y [matemática] \ mathbf {b} = W_2 \ mathbf {b} _1 + \ mathbf {b} _2 [/ matemática]. Pero esto es solo una regresión lineal / logística. Como puede ver, agregar más capas no ayudará, el modelo inevitablemente colapsará a una regresión lineal / logística. En una red profunda, podría hacer que una o algunas activaciones sean lineales, pero según la lógica anterior, esas capas se colapsarían en una capa, lo que haría que la arquitectura fuera estadísticamente ineficiente.

No estoy muy seguro de lo que quieres decir con “usar la función lineal entre capas”, pero si te refieres a construir capas sin funciones de activación no lineales, estas capas conectadas linealmente son esencialmente redundantes, ya que una combinación lineal de transformaciones lineales sigue siendo una transformación lineal .

Lo que finalmente obtienes es una regresión lineal.

More Interesting

¿Cuáles son las implicaciones epistemológicas del hecho de que no podríamos haber programado conscientemente una red neuronal para hacer lo que hace?

Cómo dibujar un múltiple de un autoencoder variacional en Keras

¿Cuáles son los algoritmos de aprendizaje automático adecuados para Big Data o análisis en tiempo real?

¿Qué es el algoritmo de agrupación de Markov?

¿Cuál es la intuición detrás de la fórmula de actualización de peso de Perceptron w = w + yx?

¿Por qué es beneficioso centrar y normalizar los datos antes de ejecutar el Análisis de componentes principales en él?

¿Qué tecnologías que no son de IBM se están utilizando para mejorar el ecosistema de IBM Watson?

¿Mejor ejecución de trabajos de Machine Learning directamente desde Pyspark o integración de scikit-learn en, a través del método de paralelización SparkContext?

¿Qué tan difícil es el aprendizaje automático?

¿Cuál es la ventaja de utilizar la función de probabilidad logarítmica frente a la función de probabilidad para la estimación de máxima probabilidad?

¿Puede ocurrir un sobreajuste en un algoritmo de aprendizaje no supervisado?

¿Cómo obtienen las startups de aprendizaje automático los usuarios iniciales?

¿Hay alguna conexión entre el aprendizaje de kernel múltiple (MLK) y el aprendizaje profundo?

¿Cambridge o Stanford / Berkeley son mejores en aprendizaje automático?

¿El CAPM está muerto, en el sentido de que el aprendizaje automático moderno y el modelado financiero han hecho que su aplicación en el mundo real sea redundante?