¿Qué significan las redes bayesianas en Machine Learning?

Una red bayesiana esencialmente tiene variables aleatorias y una estructura gráfica que codifica las dependencias entre las variables. Por ejemplo, considere el siguiente gráfico:

Lo que codifica este gráfico es lo siguiente:

Las redes neuronales se han vuelto muy populares en los últimos años, sin embargo, gran parte de la teoría se desarrolló hace 20 años. ¿Qué avances explican los éxitos recientes?
¿Existe un modelo más efectivo que Word2vec desde 2013?
¿Cómo hace un auto Tesla el aprendizaje automático?
¿Cuál es la mejor manera de aprender la programación CUDA C para implementar nuevas ideas de aprendizaje profundo?
Cómo derivar la propagación hacia atrás desde la segunda capa de convolución

La probabilidad de ‘lluvia’ depende de si está ‘nublado’: Nublado = Verdadero => Mayor probabilidad de lluvia
La probabilidad de ‘rociador’ depende de si está ‘nublado’: Nublado = Verdadero => Baja probabilidad de rociador
La probabilidad de ‘hierba mojada’ depende tanto de ‘rociador’ como de ‘lluvia’: si alguno de esos factores es cierto, es probable que la hierba mojada también lo sea.

Ahora, hay algoritmos para realizar ‘entrenamiento’ e ‘inferencia’ en estos gráficos: el entrenamiento implica aprender la relación entre los nodos dados los datos etiquetados, y la inferencia implica calcular la probabilidad de algunas variables dado que se observa que las otras variables están en un estado específico [por ejemplo, sabes que Rain = True en el ejemplo anterior].

Este marco puede usarse en una variedad de aplicaciones. Una de las aplicaciones comunes son los modelos ocultos de Markov (HMM). Suponga que recibe un conjunto de oraciones en inglés y desea aprender a predecir la parte del discurso de cada palabra en una oración invisible. Puede modelar este problema como un HMM:

Aquí, t son las etiquetas que deben predecirse, y w son palabras que se observan. Dadas las palabras, desea encontrar la secuencia más probable de etiquetas.

[1] Redes bayesianas

[2] Modelo de Markov oculto en MP3 para etiquetado de puerto de voz · CS 6501: Minería de texto

Machine Learning