En el aprendizaje profundo, ¿se pueden obtener buenos resultados cuando usas una función lineal entre las capas ocultas?

Si sus activaciones son lineales, su modelo es lineal, entonces no.

Para entender por qué, supongamos que tiene una red de alimentación de una capa [math] y = f (\ mathbf {x}) [/ math] con activaciones lineales,

[matemáticas] f (\ mathbf {x}) = a_2 (W_2 \ cdot a_1 (W_1 \ mathbf {x} + \ mathbf {b} _1) + \ mathbf {b} _2), [/ math]

¿Cuál es su visión de cómo la clase media de los EE. UU. Puede hacer frente al auge de la robótica, la automatización, etc.?
¿Cómo funciona el algoritmo de recomendación de YouTube?
Análisis de sentimientos: ¿cuál es una manera simple de identificar palabras de sentimientos en una oración?
¿Cómo puede un programa determinar rápidamente si un tweet es negativo o positivo?
¿Cómo nos beneficia exactamente el entrenamiento previo en los métodos de aprendizaje profundo?

donde [math] a_1, \ a_2 [/ math] son funciones de activación, [math] \ mathbf {x}, \ \ mathbf {b} _1, \ \ mathbf {b} _2 [/ math] son vectores y [math] W_1, W_2 [/ math] son matrices. Para simplificar, permita que cada activación multiplique la entrada por [math] 1 [/ math]. Luego

[matemáticas] f (\ mathbf {x}) = W_2 \ cdot (W_1 \ mathbf {x} + \ mathbf {b} _1) + \ mathbf {b} _2 = W \ mathbf {x} + \ mathbf {b} [/mates]

donde [matemática] W = W_2 W_1 [/ matemática] y [matemática] \ mathbf {b} = W_2 \ mathbf {b} _1 + \ mathbf {b} _2 [/ matemática]. Pero esto es solo una regresión lineal / logística. Como puede ver, agregar más capas no ayudará, el modelo inevitablemente colapsará a una regresión lineal / logística. En una red profunda, podría hacer que una o algunas activaciones sean lineales, pero según la lógica anterior, esas capas se colapsarían en una capa, lo que haría que la arquitectura fuera estadísticamente ineficiente.

Aprendizaje automáticoAprendizaje profundoInteligencia ArtificialRedes neuronales artificiales

Related Content

¿Cuál es el algoritmo de aprendizaje automático más rápido para implementar para la detección de fraudes?

¿Cuándo se debe agregar una segunda capa oculta a una red neuronal?

¿Cuál es el mejor método para presentar la idea de una red neuronal de convolución a un profano?

¿Cuál es el método más popular para clasificar los temas de los artículos de noticias?

¿Qué piensa Yoshua Bengio sobre los Algoritmos de aprendizaje de Alineación de retroalimentación?

¿Qué tan útil es el aprendizaje automático?

Cómo poner un programa de IA en un dispositivo

No estoy muy seguro de lo que quieres decir con “usar la función lineal entre capas”, pero si te refieres a construir capas sin funciones de activación no lineales, estas capas conectadas linealmente son esencialmente redundantes, ya que una combinación lineal de transformaciones lineales sigue siendo una transformación lineal .

Lo que finalmente obtienes es una regresión lineal.

Yunhan Liu

More Interesting

¿Cuáles son las implicaciones epistemológicas del hecho de que no podríamos haber programado conscientemente una red neuronal para hacer lo que hace?

Cómo dibujar un múltiple de un autoencoder variacional en Keras

¿Cuáles son los algoritmos de aprendizaje automático adecuados para Big Data o análisis en tiempo real?

¿Qué es el algoritmo de agrupación de Markov?

¿Cuál es la intuición detrás de la fórmula de actualización de peso de Perceptron w = w + yx?

¿Por qué es beneficioso centrar y normalizar los datos antes de ejecutar el Análisis de componentes principales en él?

¿Qué tecnologías que no son de IBM se están utilizando para mejorar el ecosistema de IBM Watson?

¿Mejor ejecución de trabajos de Machine Learning directamente desde Pyspark o integración de scikit-learn en, a través del método de paralelización SparkContext?

¿Qué tan difícil es el aprendizaje automático?

¿Cuál es la ventaja de utilizar la función de probabilidad logarítmica frente a la función de probabilidad para la estimación de máxima probabilidad?

¿Puede ocurrir un sobreajuste en un algoritmo de aprendizaje no supervisado?

¿Cómo obtienen las startups de aprendizaje automático los usuarios iniciales?

¿Hay alguna conexión entre el aprendizaje de kernel múltiple (MLK) y el aprendizaje profundo?

¿Cambridge o Stanford / Berkeley son mejores en aprendizaje automático?

¿El CAPM está muerto, en el sentido de que el aprendizaje automático moderno y el modelado financiero han hecho que su aplicación en el mundo real sea redundante?

Web Analytics