Si sus activaciones son lineales, su modelo es lineal, entonces no.
Para entender por qué, supongamos que tiene una red de alimentación de una capa [math] y = f (\ mathbf {x}) [/ math] con activaciones lineales,
[matemáticas] f (\ mathbf {x}) = a_2 (W_2 \ cdot a_1 (W_1 \ mathbf {x} + \ mathbf {b} _1) + \ mathbf {b} _2), [/ math]
- ¿Cuál es su visión de cómo la clase media de los EE. UU. Puede hacer frente al auge de la robótica, la automatización, etc.?
- ¿Cómo funciona el algoritmo de recomendación de YouTube?
- Análisis de sentimientos: ¿cuál es una manera simple de identificar palabras de sentimientos en una oración?
- ¿Cómo puede un programa determinar rápidamente si un tweet es negativo o positivo?
- ¿Cómo nos beneficia exactamente el entrenamiento previo en los métodos de aprendizaje profundo?
donde [math] a_1, \ a_2 [/ math] son funciones de activación, [math] \ mathbf {x}, \ \ mathbf {b} _1, \ \ mathbf {b} _2 [/ math] son vectores y [math] W_1, W_2 [/ math] son matrices. Para simplificar, permita que cada activación multiplique la entrada por [math] 1 [/ math]. Luego
[matemáticas] f (\ mathbf {x}) = W_2 \ cdot (W_1 \ mathbf {x} + \ mathbf {b} _1) + \ mathbf {b} _2 = W \ mathbf {x} + \ mathbf {b} [/mates]
donde [matemática] W = W_2 W_1 [/ matemática] y [matemática] \ mathbf {b} = W_2 \ mathbf {b} _1 + \ mathbf {b} _2 [/ matemática]. Pero esto es solo una regresión lineal / logística. Como puede ver, agregar más capas no ayudará, el modelo inevitablemente colapsará a una regresión lineal / logística. En una red profunda, podría hacer que una o algunas activaciones sean lineales, pero según la lógica anterior, esas capas se colapsarían en una capa, lo que haría que la arquitectura fuera estadísticamente ineficiente.