Le daré a esto una explicación matemática:
Supongamos un nodo de una capa de entrada para simplificar y llamarlo x.
Luego, en el primer caso, con la función de activación f (x) y los pesos w1, w2, w3, w4 tiene las siguientes activaciones:
- ¿Cuál es el estado de los chatbots?
- ¿Crees que tu trabajo actual será reemplazado por un robot / software?
- ¿Qué querrá hacer con nosotros la inteligencia artificial sensible (IA)?
- ¿Cómo se aprende a construir máquinas?
- ¿Qué se entiende por singularidad en IA?
f (w1 * x), f (w2 * x), f (w3 * x) yf (w4 * x),
En la siguiente capa, multiplique esto con 4 nuevos pesos y agréguelos para obtener las siguientes funciones de salida:
y = w5 * f (w1 * x) + w6 * f (w2 * x) + w7 * f (w3 * x) + w8 * f (w4 * x)
Por lo tanto, optimizará sus pesos para que la función superior se ajuste bien a su conjunto de entrenamiento.
Sin embargo, en el caso 2,
Las activaciones producidas serán:
f (w1 * x) yf (w2 * x)
Las activaciones en la siguiente capa serán
f (w3 * f (w1 * x) + w4 * f (w1 * x)) yf (w5 * f (w1 * x) + w6 * f (w2 * x))
Finalmente, para asignarlo a la capa de salida de neurona única, la función de salida es:
y = w7 * f (w3 * f (w1 * x) + w4 * f (w1 * x)) + w8 * f (w5 * f (w1 * x) + w6 * f (w2 * x))
Ahora dibujemos las comparaciones y diferencias ahora:
El número de pesos para optimizar sigue siendo el mismo en ambos casos, pero el grado de no linealidad es mayor en la segunda función.
En el primer caso, formamos algunas características relevantes de nuestra entrada, y luego agregamos una no linealidad y luego combinamos esas características para producir nuestro resultado, piense en esto como esto:
Digamos que está trabajando con la clasificación de números escritos a mano, la primera capa en el primer caso, puede representar características como curvas y líneas, y luego combinarlas en la capa de salida para hacer una predicción (por ejemplo, una línea y una superior) el círculo puede representar 9).
En el segundo caso, extrae entidades de esas entidades extraídas, por lo que tal vez una vez que conozca una línea, vea la orientación de la línea (horizontal para 3 verticales para 1). Y luego haciendo una predicción.
En el ejemplo ingenuo anterior, está bien suponer que la primera capa del primer caso también puede haber extraído estas características y tener un rendimiento equivalente a la red profunda. Hay varias investigaciones que comparan el rendimiento de la red profunda con la red neuronal de una sola capa en varios problemas. .
En general,
Si se prefieren redes profundas, es probable que el conjunto de problemas deba funcionar con más funciones no lineales que funciones lineales, por lo que reducirá el número de neuronas en cada capa y aumentará el número de capa.
Si se prefieren las capas individuales, probablemente se deba a que el alto grado de no linealidad de las redes profundas podría estar ajustando demasiado los datos. Dos puntos se pueden unir mediante una línea recta o una onda sinusoidal. Y a veces, se puede preferir una línea recta, porque es representativa de la verdadera naturaleza de los datos. Por lo tanto, a veces no preferimos la no linealidad añadida.
Dicho esto, también es una práctica común ver redes neuronales de capa única sobre el ajuste de los datos. Y, por lo tanto, se ha realizado mucha investigación sobre la construcción de redes neuronales paso a paso y de manera constructiva.