¿Cuáles son las similitudes y diferencias entre los campos aleatorios condicionales (CRF) y las redes de Markov de margen máximo (M3N)?

Max Margin Markov Network es un marco de aprendizaje de parámetros donde aprende parámetros que maximizan el margen. Chain CRF es una red de Markov que es un árbol (existen métodos de inferencia eficientes, pero la inferencia se puede hacer dados los parámetros). El principal problema a considerar aquí es cuáles deberían ser los potenciales en el CRF (por ejemplo). ¿Cómo podemos aprender esos potenciales de los datos? M3N te da la herramienta para hacer eso. Puede haber otras formas de hacer lo mismo, pero esta es la forma en que aprende los parámetros que maximizan el margen en algún sentido.

La similitud sería que ambos son problemas de predicción estructurados y no hay una línea dura para diferenciarlos y me parece que la comparación no tiene sentido ya que M3N es un marco más general también aplicado a la CRF en cadena. CRF es un modelo que codifica la independencia y M3N es un modelo que parece un SSVM estándar (casi) el diseño de características del SSVM se puede hacer mirando las redes de Markov (CRF aquí; depende de la aplicación). Una vez que el diseño de las características y la formulación de SSVM se hayan hecho, podríamos olvidar el CRF y hacer todas las cosas que nos interesan. Como la formulación min-max (refiérase al trabajo en papel 2005, supongo) o LP QP de forma dual relajada y varias cosas que podrían hacer un problema de optimización para resolverlo de manera eficiente, incluida la explotación de la estructura del problema. Opcionalmente, como una tarea de investigación, uno podría considerar otras relajaciones diferentes, como las relajaciones SDP, SOCP, QP y cómo funciona con precisión en las redes estructuradas sin árboles para las cuales necesitamos una solución globalmente consistente. También necesitamos algoritmos eficientes para estas versiones relajadas (actualmente quizás de uso menos práctico, excepto QP, por ejemplo).
Espero que esto ayude.

PS asumiendo que el CRF en cadena como en la literatura se unen como lo encontré, pero la mayoría de las declaraciones son aplicables a los CRF, excepto que todos los CRF no tienen algoritmos de inferencia eficientes y cosas similares. La idea sigue siendo la misma.

More Interesting

¿Es inútil seguir el aprendizaje automático como segundo año?

¿La IA tradicional se está volviendo obsoleta a la luz del progreso en el aprendizaje profundo?

Cómo detectar logotipos si están distorsionados

¿Cuál es la mejor manera de combinar filtrado colaborativo y recomendaciones basadas en contenido?

¿Existe alguna posibilidad de que la química del aprendizaje automático pueda correlacionarse con la nanotecnología?

¿Cuál es el mejor enfoque para abordar la compensación de exploración / explotación en los sistemas de recomendación?

Cómo aprender a convertirse en un experto en aprendizaje profundo

Visión por computadora: ¿cómo sé qué vector de características en un vector combinado es más confiable?

¿Los LSTM tienen significativamente más parámetros que los RNN estándar?

Como todos están aprendiendo el aprendizaje automático y el aprendizaje profundo ahora, ¿debería adoptar un enfoque diferente para centrarme en un área específica, como la programación de gráficos o una más general, como el desarrollo de backend?

¿El antiguo guardia de IA ha frenado la investigación de aprendizaje automático en el MIT?

¿Es cierto que las predicciones en el espacio de alta dimensión son más difíciles en torno al origen?

¿Cómo manejan las empresas en Silicon Valley sus datos de flujo de red?

¿Puede proporcionar las tareas que se le han asignado mientras buscaba una maestría en el campo CS?

Estamos viendo el comienzo de las máquinas que pueden codificar. ¿Aprender un lenguaje de programación aún sería útil en la carrera de ML?