¿Cuál es el orden para aprender a usar los campos aleatorios de Markov para el procesamiento de imágenes?

No soy un experto en esta área, pero me he aventurado en esta dirección y he tratado de comprender algunas de las investigaciones sobre el uso de MRF para el procesamiento de imágenes.

La teoría de grafos requerida para comprender los MRF, especialmente el procesamiento de imágenes wrt, es mínima. Una comprensión básica de los términos vértice, borde, camarilla y accesibilidad debería ser suficiente.

(Paso 1)

Básicamente, comenzaría con modelos gráficos e inferencia. El libro de Chris Bishop “Reconocimiento de patrones y aprendizaje automático” (Christopher M. Bishop | PRML) tiene una descripción concisa de los algoritmos necesarios.

¡Es una casualidad que el sitio web vinculado tenga ‘Capítulo 8: Modelos gráficos e inferencia’ como el capítulo de muestra!

En particular, preste especial atención a ‘8.4.1: Inferencia en una cadena’. Sigue a través de las matemáticas; resuelva algunos ejemplos a mano; Desarrollar cierta intuición sobre el mensaje que pasa (o la propagación de creencias) a través de la cadena.

Comprenda que la propagación de creencias en bucle es solo un mensaje iterativo que pasa en cadenas, ignorando la presencia de bucles.

(Paso 2)

Comprenda que se puede trabajar en términos de probabilidades o log-probabilidades: son equivalentes en una configuración de optimización. Diferentes profesionales llaman a la probabilidad logarítmica (o derivada como la probabilidad logarítmica negativa) por diferentes nombres: probabilidad logarítmica, función potencial, función energética, etc.

La literatura de procesamiento de imágenes le gusta llamarla la función potencial. Desde el paso 1, habrá aprendido que los MRF se convierten en gráficos de factores y luego se puede realizar la inferencia en el gráfico de factores. El “factor” en un gráfico de factores es la “función potencial”.

(Paso 3)

Si bien las personas generalmente piensan en las funciones de densidad de probabilidad (PDF) cuando piensan en modelos gráficos y probabilidad condicional, debemos entender que el procesamiento de imágenes (suponiendo la implementación en una computadora digital) opera en un dominio discreto: generalmente 256 niveles por píxel.

Esto significa que los PDF se reemplazan por tablas de probabilidad unidimensionales y las distribuciones conjuntas son tablas de probabilidad multidimensionales. Dedique un tiempo a pensar qué probabilidad condicional, probabilidad marginal y probabilidad conjunta son cuando se representan como tablas. Piense en la inferencia en una cadena cuando las variables aleatorias involucradas son discretas.

Afortunadamente, es más fácil y más intuitivo pensar en términos de tablas de probabilidad que en PDF. Entonces este paso debería ser fácil.

(Etapa 4)

Ahora debe tener la comprensión necesaria para implementar e intuir acerca de la inferencia aproximada en un MRF discreto.

La habilidad necesaria ahora es aprender a representar su imagen y la operación requerida como MRF. Para ello, deberá consultar documentos y ver cómo definen las estructuras de celosía y las funciones potenciales. En este punto, está modelando problemas usando MRF y hay un arte en ello; La experiencia es tu amiga aquí.

Compruebe ahora si los siguientes documentos tienen sentido:

(1) Rigidez del gráfico, propagación de creencias cíclicas y coincidencia de patrones de puntos.
McAuley JJ1, Caetano TS, Barbosa MS.
(2) Propagación eficiente de creencias para la visión temprana.
Pedro F. Felzenszwalb y Daniel P. Huttenlocher

More Interesting

¿Qué preguntas se pueden hacer en una entrevista sobre el proyecto de Análisis de sentimientos de Twitter?

Música: ¿Cómo se puede usar el aprendizaje automático para analizar música?

¿Existe un sistema de IA más eficiente que el Watson de IBM?

Cómo predecir las ventas del próximo año, nivel de día, dada la información de ventas de años anteriores, también a nivel de día, y mediante el uso de Kalman Filtering

¿Cómo funcionan las redes interbancarias?

¿Es posible darle a una computadora millones de imágenes de varios objetos, y se da cuenta de que hay cosas como animales, platos de cocina, montañas, etc. sin que nosotros lo digamos, y cómo se hace esto exactamente?

¿Qué significa 'estimación ML o MAP no captura la incertidumbre de los parámetros'?

¿Cuántos idiomas hay para las redes neuronales?

¿Cuál es la diferencia entre extracción de información y recuperación de información?

¿Qué es un núcleo universal en el contexto del aprendizaje automático?

¿Cómo escribirías un programa de aprendizaje automático desde cero?

¿Cuál es la guía genérica y la mejor guía para aprender TensorFlow desde la plataforma Python? ¿O hay otras bibliotecas mejores que TensorFlow?

¿Cuál es la mejor introducción al aprendizaje profundo para un estudiante graduado con experiencia en matemáticas y CS?

¿En qué se diferencia exactamente la generación del lenguaje natural de la comprensión del lenguaje natural?

¿De qué sirven los algoritmos de aprendizaje si no podemos pensar por nuestra cuenta?