¿Cuál es la relación entre los modelos gráficos probabilísticos y las redes neuronales (aprendizaje profundo)?

Aquí está la respuesta simple: ambas son formas de predecir los efectos derivados de múltiples causas. En las redes neuronales, te importa lo que hará la red (predecir enlaces de entrada-salida correctamente). En los modelos gráficos probabilísticos, le importa qué es la red (qué nodos se conectan a qué, qué conexiones son más fuertes).

Puede obligar a un PGM a hacer lo que hace el NN, y puede torturar a un NN para obtener parte de la información que un PGM le daría. Cómo requiere un poco de explicación.

Eso nos lleva a la complicada respuesta:

Voy a simplificar un poco la cuestión al tratar solo con redes neuronales que realizan aprendizaje supervisado y PGM que son gráficos acíclicos dirigidos. Esto omitirá las NN no supervisadas y las PGM de Markovian, lo sé, pero las similitudes entre las dos surgen principalmente en el subconjunto que consideraré aquí.

Digamos que me gusta una chica que conozco a través de N conocidos mutuos, y quiero invitarla a una cita. Como tengo baja autoestima, quiero pedirle a un subconjunto de nuestros amigos mutuos que me impulse a ella. Sin embargo, una referencia de alguien de quien desconfía puede tener solo una influencia positiva débil, mientras que una referencia de alguien a quien no le gusta puede incluso tener un impacto negativo.

Ahora supongamos que n de mis amigos ya han tenido la misma idea y han intentado hacerlo antes (supongamos, a los efectos de este argumento, que la joven en cuestión es insoportablemente deseable). Así que tengo en mi poder un conjunto de observaciones, que puedo representar de manera compacta como un vector de n bits {1,0,1,0 ….} Donde 1 es un impulso, 0 significa que no hay contacto.

El problema computacional que necesito resolver es encontrar el conjunto de amigos que debería pedir para impulsarme, es decir, el mejor vector. Tenga en cuenta que este no tiene que ser uno de los n vectores ya probados.

Podría intentar resolver este problema utilizando una red neuronal: la capa de entrada tendría N nodos que obtendrían la entrada de evaluación, la capa de salida sería la respuesta de la niña (nuevamente binaria), y puedo arrojar una capa oculta de neuronas M que todos tener N conexiones de vuelta a la capa de entrada, y codificar varios cuantos de dinámicas me-friend-girl que, cuando se agrupan en M conexiones hacia adelante a la capa de salida, determinan su interés en mí.

Cuando entrene esta red neuronal con los n vectores que tengo, aprenderé pesos entre 0 y 1 en las conexiones de entrada de capa media de NM y las conexiones de salida de capa media de M. Intuitivamente, las combinaciones de entradas que predicen bien la salida (digamos sus 3 amigos más cercanos) se reforzarán repetidamente y se harán más grandes a través de n observaciones. También lo hará el peso correspondiente a la neurona de nivel medio que recibe entradas de esa camarilla específicamente. Sin embargo, no habrá una manera fácil de saber cuál de las neuronas de capa media M contiene la información de los 3 amigos más cercanos. El NN funcionará como un oráculo de Delphic: puede preguntarle sobre el destino de los vectores individuales, pero no por razones que expliquen su predicción.

También podría tratar este problema como un razonamiento bayesiano, donde potencialmente recibo observaciones de aprobación de N nodos, lo que lleva a la formación de una impresión (una variable aleatoria), que provoca la aceptación de la fecha (un evento observable). En este caso, puedo ver la probabilidad de probabilidad p (aprobación del amigo i | impresión), a partir de la cual tengo que estimar la probabilidad posterior condicional p (vector de impresión | de todas las aprobaciones) utilizando el teorema de Bayes.

Sin embargo, pasar de p (aprobación i | impresión) a p (todas las aprobaciones | impresión) es difícil. Por lo general, los estudiantes de máquina tienden a asumir una independencia condicional para todas las aprobaciones i, es decir, p (todas las aprobaciones | impresión) = producto de todas las p (aprobación i | impresión). Esto es simple de calcular, pero renuncia a la posibilidad de modelar correlaciones no triviales entre entradas. Por ejemplo, si escuchar cosas buenas de A, B y C o de C y F, pero no de A y C juntas, impresiona a la niña (suponga que la vida social de la niña es extremadamente rica), tales efectos no aparecerán en tales predicciones bayesianas “ingenuas”.

Para resumir, en cualquier situación en la que varias causas puedan contribuir a un efecto observable, puede intentar aprender la estructura de causa-efecto utilizando una red neuronal o un modelo bayesiano. Por lo tanto, la similitud clave entre NN y PGM es que ambos se pueden usar para aprender las funciones de red.

La diferencia clave en NN y PGM estructuralmente similares es que los NN permiten naturalmente inferencia sobre combinaciones arbitrarias de características de entrada, al renunciar a la necesidad de que los cálculos intermedios tengan sentido. Por otro lado, las PGM, por razones técnicas, se limitan a un conjunto limitado de hipótesis sobre las conexiones entre las entradas, pero le darán predicciones intermedias detalladas sobre la probabilidad de que las entradas individuales generen el efecto.

Me gusta pensar en las redes neuronales simplemente como una forma de implementar predicciones estadísticas.

En otras palabras, no comparo redes neuronales con estadísticas, por la misma razón que no comparo calculadoras con aritmética.

Para mí, las redes neuronales no son un nuevo tipo de computación, sino simplemente dispositivos que pueden descubrir e implementar buenos modelos probabilísticos anticuados.

Esto de ninguna manera pretende menospreciar las redes neuronales, o la gran cantidad de valiosa investigación relacionada con su construcción y rendimiento. Para decirlo de otra manera, en 1890 habría considerado un automóvil, no como un nuevo tipo de viaje, sino como un nuevo tipo de dispositivo para viajar por tierra. Una alternativa a caminar, o caballos. En contraste, habría considerado volar o teletransportarse (si alguien hubiera inventado este último) como un nuevo tipo de viaje.

Este argumento simplemente me libera de la disonancia cognitiva y de tener que tratar de convencer a los matemáticos o estadísticos de que las redes neuronales que estamos construyendo están realizando un nuevo tipo de cálculo que es matemáticamente diferente de los tipos de cómputos que comprenden los modelos que construyen.

Estoy interesado en las redes neuronales, no para competir con los modelos matemáticos construidos por matemáticos y estadísticos, sino para progresar hacia la construcción de máquinas que puedan imitar lo que hacen las mentes de esas personas cuando crean esos modelos.

Aquí hay otra perspectiva, a diferencia de los estadísticos que tienen grandes muestras a su disposición, los seres humanos realizan cálculos rápidos y sucios que no son tan buenos como los modelos producidos por los estadísticos, pero que son lo suficientemente buenos y que pueden producirse mucho más rápidamente , utilizando muestras mucho más pequeñas, y que son mucho menos costosas. Un ser humano nunca podría competir con un modelo climático contemporáneo, al predecir el camino de un huracán. No me enorgullezco de la calidad de los resultados producidos por mis redes neuronales, sino de lo rápido y económico que pueden producirlos.

Probablemente no sea defendible afirmar que siempre es así, que las redes neuronales solo tienen a su disposición conjuntos de entrenamiento que son mucho más pequeños que las muestras que usan los estadísticos para elaborar modelos matemáticos. Por ejemplo, cuando estoy aprendiendo a andar en bicicleta o tocar el violín, mi cerebro tiene cientos, quizás miles de horas de práctica a su disposición, que mapean las señales de control que influyen en la postura de mi cuerpo en función del tiempo y la retroalimentación sensorial. , a salidas como caerse, casi caerse o producir sonidos chirriantes que ofenden la sensibilidad artística de todos los gatos que residen en mi vecindario.

Los modelos profundos son la especialización de los modelos gráficos de tal forma que la dinámica probabiliática cuenta con funciones potenciales proporcionadas por cada nofe en la red. Cualquier modelo gráfico cíclico con funciones diferenciables puede ser entrenado por Backpropagation como los modelos más avanzados de aprendizaje profundo. Incluso con algún truco desplegado, también podemos entrenar modelos recurrentes

More Interesting

¿Cuáles son algunas buenas técnicas para la clasificación / segmentación de datos de series temporales?

¿Por qué la supercomputación no se utilizó con éxito para Deep Learning anteriormente?

¿Puedo usar el aprendizaje profundo o ANN para un problema de agrupación como KNN?

¿Cuáles son las principales diferencias entre los MOOC de aprendizaje automático de Caltech y Stanford?

Data Science, Big Data, Machine Learning, ¿qué certificación debo hacer para cambiar la trayectoria profesional desde un entorno de control de calidad?

Cómo hacer una selección y clasificación de características adecuadas en datos dispersos de alta dimensión y altamente desequilibrados

¿Por qué nadie recomienda JavaScript / Node.js como lenguaje para el aprendizaje automático o el análisis de datos?

¿Cuáles son algunos estudios de caso excelentes en el aprendizaje automático?

¿Cómo se implementa una pila en hardware para subrutinas de nivel de código de máquina?

De estos cursos, ¿cuál debería tomar más si quiero investigar en reconocimiento de patrones o visión por computadora?

¿Será posible usar una red neuronal para determinar si algo está en el Valle Uncanny?

Cómo construir un reconocimiento de objetos basado en dispositivos móviles utilizando técnicas de aprendizaje automático

¿Es posible usar datos sintéticos (no de la vida real) en un modelo de aprendizaje automático?

¿Por qué es tan difícil la IA? ¿Por qué todavía no hemos construido una máquina de IA?

¿Qué conocimiento se requiere para la pasantía de ML como estudiante universitario de CS?