Max Margin Markov Network es un marco de aprendizaje de parámetros donde aprende parámetros que maximizan el margen. Chain CRF es una red de Markov que es un árbol (existen métodos de inferencia eficientes, pero la inferencia se puede hacer dados los parámetros). El principal problema a considerar aquí es cuáles deberían ser los potenciales en el CRF (por ejemplo). ¿Cómo podemos aprender esos potenciales de los datos? M3N te da la herramienta para hacer eso. Puede haber otras formas de hacer lo mismo, pero esta es la forma en que aprende los parámetros que maximizan el margen en algún sentido.
La similitud sería que ambos son problemas de predicción estructurados y no hay una línea dura para diferenciarlos y me parece que la comparación no tiene sentido ya que M3N es un marco más general también aplicado a la CRF en cadena. CRF es un modelo que codifica la independencia y M3N es un modelo que parece un SSVM estándar (casi) el diseño de características del SSVM se puede hacer mirando las redes de Markov (CRF aquí; depende de la aplicación). Una vez que el diseño de las características y la formulación de SSVM se hayan hecho, podríamos olvidar el CRF y hacer todas las cosas que nos interesan. Como la formulación min-max (refiérase al trabajo en papel 2005, supongo) o LP QP de forma dual relajada y varias cosas que podrían hacer un problema de optimización para resolverlo de manera eficiente, incluida la explotación de la estructura del problema. Opcionalmente, como una tarea de investigación, uno podría considerar otras relajaciones diferentes, como las relajaciones SDP, SOCP, QP y cómo funciona con precisión en las redes estructuradas sin árboles para las cuales necesitamos una solución globalmente consistente. También necesitamos algoritmos eficientes para estas versiones relajadas (actualmente quizás de uso menos práctico, excepto QP, por ejemplo).
Espero que esto ayude.
PS asumiendo que el CRF en cadena como en la literatura se unen como lo encontré, pero la mayoría de las declaraciones son aplicables a los CRF, excepto que todos los CRF no tienen algoritmos de inferencia eficientes y cosas similares. La idea sigue siendo la misma.
- ¿Auto-sklearn es realmente mejor que un clasificador único optimizado por hiperparámetro? ¿Tienes experiencia con esto?
- ¿Por qué es importante la eliminación de variables en los modelos gráficos probabilísticos?
- ¿Las startups ofrecen trabajos orientados a la investigación?
- ¿Cuáles son algunas bibliotecas de software para el aprendizaje a gran escala?
- Cómo pensar que el 'problema de aprendizaje One Shot' se resolverá con Deep Neural Network