¿Cómo se usan los modelos gráficos probabilísticos en la comprensión de imágenes?

Pairwise Markov Random Field (MRF) es uno de los modelos gráficos más populares que se utilizan en Computer Vision. La estructura de un MRF por pares lo convierte en una opción natural para problemas de comprensión de la imagen, como la segmentación semántica y el etiquetado de escenas. Considere la tarea de segmentación semántica, es decir, etiquetar cada píxel de una imagen con la etiqueta del objeto correspondiente. El MRF que se muestra a continuación se puede usar para resolver esta tarea:

Para esta tarea, los nodos azules corresponden a píxeles de la imagen, y los nodos variables rojos corresponden a la etiqueta.

El número de píxeles en una imagen es demasiado grande para hacer una inferencia exacta en estos MRF. Para hacer inferencia en MRF por pares, uno podría usar enfoques de inferencia aproximada, como la propagación de creencias en bucle. Sin embargo, la propagación de creencias puede conducir a malos resultados. En cambio, los investigadores de la comunidad de Computer Vision han desarrollado asombrosos algoritmos de movimiento como la expansión alfa, el intercambio alfa beta, que no solo son rápidos, sino que también tienen garantías sobre la calidad de la solución.

Consulte este documento seminal si está interesado en obtener más información sobre estos algoritmos de movimiento: http://www.cs.sfu.ca/CourseCentr…

Fuente de la figura: donde el aburrimiento, el tiempo libre y la curiosidad se unen

Related Content

¿Está sobrevalorada la informática?

¿Qué pasos puedo tomar para encontrar un mentor / ingeniero en ciencias de la computación, especialmente siendo una ingeniera introvertida?

En la era de Global Grid Computing, ¿cómo siguen siendo relevantes las supercomputadoras?

¿Cómo es AIT, Pune para CSE? ¿Cómo es la multitud, la cultura de codificación y las ubicaciones para CSE allí? ¿Cómo son las instalaciones del albergue? Con 20,000 rango aéreo, ¿vale la pena ir?

¿Cómo eliminar esto?

¿Cuál es su opinión sobre G2 Crowd?

¿Puede un estudiante de rama no CSE obtener una pasantía en Amazon, LinkedIn, Microsoft, Google y Facebook?

Gracias por el A2A.
Los modelos gráficos se utilizan ampliamente para la comprensión de imágenes y lenguaje.
Esperemos que con usted comprenda los conceptos básicos aquí hay un interesante conjunto de diapositivas de MPI

https://www.mpi-inf.mpg.de/filea …

Aquí hay otro tutorial (no lo he leído completamente) pero es algo que podría ayudarlo
http://www.nowozin.net/sebastian …

Devendra Kumar Sahu

Hacia la comprensión total de la escena: clasificación, anotación y segmentación en un marco automático
Página en stanford.edu

Este documento fue uno de los mejores y tuvo usos extremos del modelo gráfico en un solo marco que he leído hasta ahora. En mi lectura limitada, este artículo me pareció esclarecedor. Mi consejo para leer cualquier documento de modelos gráficos sería separar inferencia / aprendizaje y modelado.

Devendra Kumar Sahu

More Interesting

¿Cuáles son las diferencias entre las computadoras de servidor, las computadoras domésticas y los teléfonos inteligentes?

¿Alguien puede darme una explicación detallada sobre IoT (internet de las cosas)?

¿En qué se diferencia la entrevista de pasantía SWE de Facebook de la de Google?

¿Qué startups reclutan estudiantes universitarios con experiencia en aprendizaje automático?

¿Cómo se compara la velocidad de cálculo de los siguientes elementos?

¿Cuáles son los desafíos con el procesamiento del lenguaje natural en el contexto de la inteligencia artificial?

¿Por qué debería aprender las matemáticas detrás del aprendizaje automático?

¿Qué tan bueno es NIIT Neemrana para CSE?

¿Es posible crear un simulador de sistema general? De ser así, ¿cómo?

¿Cuánta potencia informática se necesitaría para simular un cuerpo humano a funciones celulares individuales?

¿Se puede construir una máquina autoconsciente?

¿Cuál es la definición de precisión en el aprendizaje automático?

¿Hay alguna diferencia entre float * a y float * a?

¿Cómo presentarías la computación paralela a un entrevistador que sabe poco al respecto?

Si tenemos un conjunto muy grande de objetos comparables, ¿qué implementación de la tabla de símbolos es empíricamente más rápida: una tabla hash o un árbol de búsqueda binario balanceado? ¿Por qué?

Web Analytics