Aquí está la respuesta simple: ambas son formas de predecir los efectos derivados de múltiples causas. En las redes neuronales, te importa lo que hará la red (predecir enlaces de entrada-salida correctamente). En los modelos gráficos probabilísticos, le importa qué es la red (qué nodos se conectan a qué, qué conexiones son más fuertes).
Puede obligar a un PGM a hacer lo que hace el NN, y puede torturar a un NN para obtener parte de la información que un PGM le daría. Cómo requiere un poco de explicación.
Eso nos lleva a la complicada respuesta:
- ¿Existe alguna técnica de aprendizaje automático que pueda transferir automáticamente una historia escrita en texto a un libro de dibujos animados?
- ¿Cómo podría una máquina / sistema de IA identificar una oración sarcástica?
- ¿Cuál es la diferencia entre clasificación (binaria y multiclase), regresión y agrupamiento?
- ¿Qué es un uso subestimado del aprendizaje automático?
- ¿Cómo funciona el método de daño cerebral óptimo?
Voy a simplificar un poco la cuestión al tratar solo con redes neuronales que realizan aprendizaje supervisado y PGM que son gráficos acíclicos dirigidos. Esto omitirá las NN no supervisadas y las PGM de Markovian, lo sé, pero las similitudes entre las dos surgen principalmente en el subconjunto que consideraré aquí.
Digamos que me gusta una chica que conozco a través de N conocidos mutuos, y quiero invitarla a una cita. Como tengo baja autoestima, quiero pedirle a un subconjunto de nuestros amigos mutuos que me impulse a ella. Sin embargo, una referencia de alguien de quien desconfía puede tener solo una influencia positiva débil, mientras que una referencia de alguien a quien no le gusta puede incluso tener un impacto negativo.
Ahora supongamos que n de mis amigos ya han tenido la misma idea y han intentado hacerlo antes (supongamos, a los efectos de este argumento, que la joven en cuestión es insoportablemente deseable). Así que tengo en mi poder un conjunto de observaciones, que puedo representar de manera compacta como un vector de n bits {1,0,1,0 ….} Donde 1 es un impulso, 0 significa que no hay contacto.
El problema computacional que necesito resolver es encontrar el conjunto de amigos que debería pedir para impulsarme, es decir, el mejor vector. Tenga en cuenta que este no tiene que ser uno de los n vectores ya probados.
Podría intentar resolver este problema utilizando una red neuronal: la capa de entrada tendría N nodos que obtendrían la entrada de evaluación, la capa de salida sería la respuesta de la niña (nuevamente binaria), y puedo arrojar una capa oculta de neuronas M que todos tener N conexiones de vuelta a la capa de entrada, y codificar varios cuantos de dinámicas me-friend-girl que, cuando se agrupan en M conexiones hacia adelante a la capa de salida, determinan su interés en mí.
Cuando entrene esta red neuronal con los n vectores que tengo, aprenderé pesos entre 0 y 1 en las conexiones de entrada de capa media de NM y las conexiones de salida de capa media de M. Intuitivamente, las combinaciones de entradas que predicen bien la salida (digamos sus 3 amigos más cercanos) se reforzarán repetidamente y se harán más grandes a través de n observaciones. También lo hará el peso correspondiente a la neurona de nivel medio que recibe entradas de esa camarilla específicamente. Sin embargo, no habrá una manera fácil de saber cuál de las neuronas de capa media M contiene la información de los 3 amigos más cercanos. El NN funcionará como un oráculo de Delphic: puede preguntarle sobre el destino de los vectores individuales, pero no por razones que expliquen su predicción.
También podría tratar este problema como un razonamiento bayesiano, donde potencialmente recibo observaciones de aprobación de N nodos, lo que lleva a la formación de una impresión (una variable aleatoria), que provoca la aceptación de la fecha (un evento observable). En este caso, puedo ver la probabilidad de probabilidad p (aprobación del amigo i | impresión), a partir de la cual tengo que estimar la probabilidad posterior condicional p (vector de impresión | de todas las aprobaciones) utilizando el teorema de Bayes.
Sin embargo, pasar de p (aprobación i | impresión) a p (todas las aprobaciones | impresión) es difícil. Por lo general, los estudiantes de máquina tienden a asumir una independencia condicional para todas las aprobaciones i, es decir, p (todas las aprobaciones | impresión) = producto de todas las p (aprobación i | impresión). Esto es simple de calcular, pero renuncia a la posibilidad de modelar correlaciones no triviales entre entradas. Por ejemplo, si escuchar cosas buenas de A, B y C o de C y F, pero no de A y C juntas, impresiona a la niña (suponga que la vida social de la niña es extremadamente rica), tales efectos no aparecerán en tales predicciones bayesianas “ingenuas”.
Para resumir, en cualquier situación en la que varias causas puedan contribuir a un efecto observable, puede intentar aprender la estructura de causa-efecto utilizando una red neuronal o un modelo bayesiano. Por lo tanto, la similitud clave entre NN y PGM es que ambos se pueden usar para aprender las funciones de red.
La diferencia clave en NN y PGM estructuralmente similares es que los NN permiten naturalmente inferencia sobre combinaciones arbitrarias de características de entrada, al renunciar a la necesidad de que los cálculos intermedios tengan sentido. Por otro lado, las PGM, por razones técnicas, se limitan a un conjunto limitado de hipótesis sobre las conexiones entre las entradas, pero le darán predicciones intermedias detalladas sobre la probabilidad de que las entradas individuales generen el efecto.