¿Cuáles son algunas aplicaciones de los modelos gráficos probabilísticos?

Durante mi última semana como estudiante de medicina, un médico de medicina de emergencia me llevó a un lado y me explicó que “la toma de decisiones médicas se trata del Teorema de Bayes”. El médico no tenía antecedentes matemáticos o técnicos, pero su perspicaz comentario resumía la belleza de los modelos gráficos probabilísticos. Los PGM son excelentes herramientas para tomar decisiones y calcular la probabilidad de un resultado particular en función de colecciones (a menudo incompletas) de conocimiento previo. En medicina, un médico hace su diagnóstico basándose en la información disponible, que nunca es 100% confiable o completa. Un paciente que acude al servicio de urgencias quejándose de dolor abdominal puede tener una de las muchas afecciones que causan dolor abdominal. Si sabemos que es una mujer joven en sus veintes y que su dolor comenzó alrededor de su ombligo y se movió a su abdomen inferior derecho en el transcurso de un día, nuestra lista de diagnósticos candidatos cambia para que la apendicitis suba más en la lista. Por otro lado, si nuestra paciente era una mujer anciana que había sido hospitalizada muchas veces con quejas similares y que su dolor abdominal estaba en su abdomen inferior izquierdo, el diagnóstico más probable sería otra afección llamada diverticulitis, en lugar de apendicitis.

Dejando a un lado la jerga médica, los modelos gráficos probabilísticos se prestan bien para el diagnóstico asistido por computadora (y análisis de fallas y análisis de herencia genética) porque usan probabilidades previas y un diagrama de flujo secuencial de eventos para llegar a conclusiones sobre los resultados basados ​​en eventos anteriores. A diferencia de la lógica en blanco y negro (IF – THEN), son útiles en casos en los que queremos modelar eventos como una serie de probabilidades interconectadas de eventos. También son excelentes para casos en los que nuestro conocimiento previo tiene agujeros.

Si desea obtener más información sobre PGM, le recomiendo encarecidamente el curso Coursera de la profesora Daphne Koller. Ella presenta varios ejemplos interesantes, incluido el diagnóstico médico, en las conferencias introductorias:

Curso de clase sobre modelos gráficos probabilísticos por el profesor D. Koller

Aquí hay una aplicación del reciente artículo de Estadísticas y Bots sobre modelos gráficos probabilísticos :

Debes haber visto alguna versión de esto en un programa de televisión:

El anfitrión le muestra tres puertas cerradas, con un automóvil detrás de una de ellas y algo invaluable detrás de las demás. Tienes que elegir una puerta. Luego, el anfitrión abre una de las puertas restantes y muestra que no contiene el automóvil. Ahora, tiene la opción de cambiar la puerta, de la que eligió inicialmente a la que el anfitrión dejó sin abrir. ¿Te cambias?

Intuitivamente, parece que el anfitrión no divulgó ninguna información. Resulta que esta intuición no es del todo correcta. Usemos la nueva herramienta en nuestro arsenal – modelos gráficos – para entender esto.

Comencemos definiendo algunas variables:

  • D: La puerta con el auto.
  • F: Tu primera opción.
  • H: La puerta abierta por el anfitrión.
  • I: ¿F = D?

D, F y H toman los valores 1, 2 o 3 y I toma los valores 0 o 1. D e I no son observados, mientras que F se observa. Hasta que el anfitrión abra una de las puertas, H no se observa. Por lo tanto, obtenemos la siguiente red bayesiana para nuestro problema:

Tenga en cuenta las direcciones de las flechas: D y F son independientes, claramente depende de D y F, y la puerta elegida por el anfitrión H también depende de D y F. Hasta ahora, no sabe nada sobre D. (Esto es similar a la estructura en la red de estudiantes, donde conocer la inteligencia del estudiante no le dice nada sobre la dificultad del curso).

Ahora, el anfitrión elige una puerta H y la abre. Entonces, H se observa ahora.

Observar H no nos dice nada acerca de I, es decir, si hemos elegido la puerta correcta. Eso es lo que nos dice nuestra intuición. Sin embargo, nos dice algo sobre D! (Nuevamente, haciendo una analogía con la red de estudiantes, si sabes que el estudiante es inteligente y la calificación es baja, te dice algo sobre la dificultad del curso).

Veamos esto usando números. Las tablas de CPD para las variables son las siguientes (esto es cuando no se han observado variables):

Las tablas para D y F son sencillas: la puerta con el automóvil podría ser cualquier puerta con la misma probabilidad, y elegimos una de las puertas con la misma probabilidad. La tabla para I simplemente dice que I = 1 cuando D y F son idénticos, e I = 0 cuando D y F son diferentes. La tabla para H dice que si D y F son iguales, entonces el anfitrión elige una puerta de las otras dos con igual probabilidad, mientras que si D y F son diferentes, entonces el anfitrión elige la tercera puerta.

Ahora, supongamos que hemos elegido una puerta, es decir, F ahora se observa, digamos F = 1. ¿Cuáles son las probabilidades condicionales de I y D, dada F?

Usando estas ecuaciones, obtenemos las siguientes probabilidades:

Estos números tienen sentido: hasta ahora, la probabilidad de que hayamos elegido la puerta correcta es ⅓ y el automóvil aún podría estar detrás de cualquier puerta con la misma probabilidad.

Ahora, el anfitrión abre una de las puertas que no sea F, por lo que observamos H. Supongamos que H = 2. Calculemos las nuevas probabilidades condicionales de I y D dadas tanto F como H.

Usando las ecuaciones anteriores, obtenemos las siguientes probabilidades:

Por lo tanto, no sabemos nada adicional sobre I: nuestra primera opción es correcta aún con probabilidad ⅓, y esto es lo que nos dice nuestra intuición. Sin embargo, ahora sabemos que el automóvil está detrás de la puerta 3 con probabilidad ⅔, en lugar de ⅓.

Entonces, si cambiamos, obtenemos el automóvil con probabilidad ⅔; si no lo hacemos, obtenemos el auto con probabilidad ⅓.

Podríamos haber obtenido la misma respuesta sin usar modelos gráficos también, pero los modelos gráficos nos dan un marco que se adapta bien a problemas más grandes.

Consulte el artículo completo para obtener más información.

Para algunos ejemplos típicos,
Modelo de markov oculto para seguimiento, reconocimiento de voz, procesamiento de lenguaje natural,

Asignación de dirichlet latente para categorización de imágenes, categorización de documentos, etc.

Campo aleatorio de Markov para segmentación de imágenes, restauración, etc.

Escaso aprendizaje bayesiano para una representación escasa

Otros, análisis de componentes del principio de probabilidad, mezcla de Gauss, etc.

Algunos ejemplos del curso de Daphne Koller sobre Coursera:
-detección de objetos en una imagen (este píxel es parte de una vaca, esto es hierba, etc.)
diagnóstico médico (dados los síntomas y las pruebas hasta ahora, aquí están las posibles enfermedades)
-modelo de riesgo para el seguro (dado lo que sé de usted, cuál es mi confianza en que es un conductor seguro)
-robot que infiere su ubicación en un mapa a partir de un sensor poco confiable y una creencia previa de la ubicación
– codificación y decodificación de mensajes después de la transmisión por un canal ruidoso
-recomendaciones (qué película creo que le gustará dada la clasificación de películas que usted y otras personas han proporcionado)

Extracción de información web: extracción de datos estructurados de páginas html.
Este documento describe el uso de CRF jerárquicos para la extracción de información web: http://research.microsoft.com/pu

Las aplicaciones para extraer información de la web incluyen:

Búsqueda local : donde las entidades comerciales (nombre comercial, dirección, teléfono, etc.) se extraen de las páginas web.
Compras de comparación de productos : donde los atributos del producto (precios, etc.) se extraen de múltiples sitios web para un producto que desea comprar.

El ejemplo obvio es la detección de objetos en imágenes.

Pero eche un vistazo al video “Descripción general y motivación” en el curso de Daphne Koller sobre PGM en Coursera: modelos gráficos probabilísticos. Ella da muchos ejemplos.

More Interesting

¿Cómo calificaría un buen algoritmo, buenos datos, buena ingeniería de características en términos de efectividad para el aprendizaje automático?

¿Existe algún uso práctico de la teoría de la información en los algoritmos de aprendizaje automático aplicados en la industria financiera?

¿Qué industria utiliza una máquina de granallado?

Si el generador y el discriminador usan SGD en Redes Adversarias Generativas, ¿por qué el entrenamiento de adversarios se llama no supervisado?

¿Cómo puedo evitar el sobreajuste?

¿Cómo se puede aplicar el aprendizaje profundo al procesamiento de imágenes subacuáticas?

¿Será posible predecir cuándo y qué producto comprará alguien con una precisión útil?

¿Dónde puede encontrar ejemplos de codificación de TensorFlow no obsoletos?

¿Qué son los componentes del procesamiento del lenguaje natural?

¿La ingeniería de características es relevante para los bosques aleatorios? ¿Cómo son relevantes las transformaciones de centrado, escala y Box-Cox en este contexto?

¿Por qué la regresión logística se considera robusta a los valores atípicos en comparación con un método de mínimos cuadrados?

¿Cuál es el mejor método para presentar la idea de una red neuronal de convolución a un profano?

Como proyecto de graduación, elegimos hacerlo en el análisis de sentimientos de Twitter, tenemos algunos conceptos básicos de ML obtenidos de los MOOC, ¿a dónde deberíamos ir después?

¿Cuál es el beneficio de usar métodos de detección de comunidad gráfica sobre los enfoques de agrupación de datos y aprendizaje automático?

¿Cuáles son los pros y los contras de Spark MLlib vs. H2O?