Supongamos que hay una red neuronal con 4 unidades ocultas y 1 capa oculta y otro NN con 2 capas ocultas, cada una con 2 unidades, ¿cuál es la diferencia?

Le daré a esto una explicación matemática:

Supongamos un nodo de una capa de entrada para simplificar y llamarlo x.

Luego, en el primer caso, con la función de activación f (x) y los pesos w1, w2, w3, w4 tiene las siguientes activaciones:

f (w1 * x), f (w2 * x), f (w3 * x) yf (w4 * x),

En la siguiente capa, multiplique esto con 4 nuevos pesos y agréguelos para obtener las siguientes funciones de salida:

y = w5 * f (w1 * x) + w6 * f (w2 * x) + w7 * f (w3 * x) + w8 * f (w4 * x)

Por lo tanto, optimizará sus pesos para que la función superior se ajuste bien a su conjunto de entrenamiento.

Sin embargo, en el caso 2,

Las activaciones producidas serán:

f (w1 * x) yf (w2 * x)

Las activaciones en la siguiente capa serán

f (w3 * f (w1 * x) + w4 * f (w1 * x)) yf (w5 * f (w1 * x) + w6 * f (w2 * x))

Finalmente, para asignarlo a la capa de salida de neurona única, la función de salida es:

y = w7 * f (w3 * f (w1 * x) + w4 * f (w1 * x)) + w8 * f (w5 * f (w1 * x) + w6 * f (w2 * x))

Ahora dibujemos las comparaciones y diferencias ahora:

El número de pesos para optimizar sigue siendo el mismo en ambos casos, pero el grado de no linealidad es mayor en la segunda función.

En el primer caso, formamos algunas características relevantes de nuestra entrada, y luego agregamos una no linealidad y luego combinamos esas características para producir nuestro resultado, piense en esto como esto:

Digamos que está trabajando con la clasificación de números escritos a mano, la primera capa en el primer caso, puede representar características como curvas y líneas, y luego combinarlas en la capa de salida para hacer una predicción (por ejemplo, una línea y una superior) el círculo puede representar 9).

En el segundo caso, extrae entidades de esas entidades extraídas, por lo que tal vez una vez que conozca una línea, vea la orientación de la línea (horizontal para 3 verticales para 1). Y luego haciendo una predicción.

En el ejemplo ingenuo anterior, está bien suponer que la primera capa del primer caso también puede haber extraído estas características y tener un rendimiento equivalente a la red profunda. Hay varias investigaciones que comparan el rendimiento de la red profunda con la red neuronal de una sola capa en varios problemas. .

En general,

Si se prefieren redes profundas, es probable que el conjunto de problemas deba funcionar con más funciones no lineales que funciones lineales, por lo que reducirá el número de neuronas en cada capa y aumentará el número de capa.

Si se prefieren las capas individuales, probablemente se deba a que el alto grado de no linealidad de las redes profundas podría estar ajustando demasiado los datos. Dos puntos se pueden unir mediante una línea recta o una onda sinusoidal. Y a veces, se puede preferir una línea recta, porque es representativa de la verdadera naturaleza de los datos. Por lo tanto, a veces no preferimos la no linealidad añadida.

Dicho esto, también es una práctica común ver redes neuronales de capa única sobre el ajuste de los datos. Y, por lo tanto, se ha realizado mucha investigación sobre la construcción de redes neuronales paso a paso y de manera constructiva.

Digamos que no. De entradas es solo 1. entonces, digamos entrada x e y – salida

El primer modelo puede hacer operaciones como

y = ax + por + cx + dx + e

La segunda capa oculta puede funcionar como

y` = ax + bx + c

y = dy` + ey` + f

Este es un simple que se me ocurrió. No investigue esto, prefiera los videos de Wikipedia / Coursers / Udacity youtube

El grado de no linealidad es mayor en el segundo caso.

More Interesting

¿Qué pasaría si los robots de IA aprendieran a reprogramar su propio programa?

¿Cuáles son algunos ejemplos de 'startups de aprendizaje automático' orientadas al consumidor?

¿Hay ejemplos en los que se usa el aprendizaje profundo (ConvNets, etc.) en combinación con el aprendizaje automático clásico?

¿Obtener un título en CS me ayudará a entrar en el aprendizaje automático y la IA?

¿Deberíamos esperar un gobierno totalmente digital y asistido por IA en el futuro?

¿Qué tan 'eficiente' es agregar interacciones tensoriales en una red neuronal, en lugar de profundizar la red pero usando transformaciones afines más simples?

¿Es LEGO Mindstorms una buena opción para un adulto que aprende inteligencia artificial y robótica?

¿Hay publicaciones sobre la generación automática de video a partir de texto plano y viceversa?

¿Por qué no podríamos usar una técnica similar al 'copyleft' para evitar que una IA fuerte cree otras IA que puedan sortear las restricciones de comportamiento incorporadas?

Cómo entrar en robótica y / o aprendizaje automático

¿Cuáles son todas las referencias de Inteligencia Artificial en Ex Machina?

Cuando la inteligencia artificial (IA) se negocia en los mercados de valores, ¿qué fuente de noticias siguen la mayoría de las IA?

¿Cómo procesan las máquinas los datos?

¿Cuál es un buen tema para una tesis de licenciatura en Análisis de sentimientos?

¿Cómo compararía la trayectoria profesional de un doctorado en aprendizaje automático que trabaja en la industria con aquellos sin un doctorado que trabaje en problemas de aprendizaje automático?