¿Por qué no podemos hacer una puerta XOR con 1 neurona?

Este es un problema muy clásico e interesante de inteligencia artificial básica. Al intentar imitar las puertas lógicas en la imagen a continuación, podemos ver claramente que los puntos para la puerta AND y la puerta OR se pueden separar fácilmente usando solo una línea, lo que se logra básicamente usando una sola neurona. Lo mismo no es cierto para la puerta XOR porque los puntos de datos no son separables usando una sola línea. Definitivamente necesitamos dos líneas para separar los puntos de datos. Estas dos líneas se pueden lograr si introducimos una segunda capa de neuronas.

Una sola neurona de dos entradas representa una línea recta como sigue:

f (x1w1 + x2w2) = y1,

donde x1 y x2 son las dos entradas y w1 y w2 son los dos pesos.f (.) es la función de activación que elegimos.

En la ecuación anterior, si tomamos y1 en el otro lado, se convierte en

f (x1w1 + x2w2) – y1 = 0 que es muy equivalente a

ax + por + c = 0.

La misma idea puede extenderse a dos capas de neuronas.

Espero que esto ayude.

More Interesting

¿Cuál es una buena distribución para usar para simular un conjunto de entrenamiento para la clasificación supervisada?

¿Cómo se hace la inferencia en una red neuronal con capas de normalización por lotes?

¿Qué necesito, como principiante, para comprender y construir un modelo generativo como WaveNet?

¿Cómo lidiamos con el conjunto de datos que tiene 3 variables categóricas de 10 variables usando regresión logística?

¿Cuáles son los principales niveles de clasificación de reclusos?

¿Es aconsejable automatizar el trabajo del presidente de la Fed con un software de aprendizaje automático dado que sus decisiones se basan principalmente en datos?

¿Cuáles son algunos proyectos que puedo hacer mientras aprendo aprendizaje automático?

¿Qué es la divergencia contrastante?

¿Cómo debo abordar mi tesis sobre 'conversión de lenguaje de señas a texto'? ¿Cuál debería ser el método?

¿Qué resultado arrojará una máquina de aprendizaje profundo bien entrenada de esta imagen?

¿Qué enfoque debo tomar para manejar los datos de desequilibrio para crear un modelo de aprendizaje automático?

¿Cómo determina el reconocimiento facial al dueño de la cara que detecta?

¿Qué piensa la gente del siguiente documento que señala los límites del aprendizaje de extremo a extremo?

¿Por qué el uso de información mutua / ganancia de información / funciones similares funciona mejor que simplemente usar el error promedio (usando probabilidad) para un booleano (conjunto de datos de 2 clases) al construir un árbol de decisión?

¿Qué es un núcleo universal en el contexto del aprendizaje automático?