Es un modelo oculto de Markov.
[matemáticas] Pr (y_1, …, y_n | x_1, …, x_n) = \ prod \ limits_ {i = 1} ^ n Pr (y_i | y_ {i-1}, x_i) \ tag * {} [/ matemática ]
donde la asignación [math] x [/ math] (observación / característica / atributo) a [math] y [/ math] (etiqueta) se parametriza mediante un clasificador de margen máximo con
- ¿Cuáles son las sinergias entre los estudios en Operaciones y Gestión de la Información y Ciencias de la Computación?
- Cómo implementar el aprendizaje automático en una aplicación de Android
- ¿Existe algún proyecto de código abierto que implemente algoritmos de aprendizaje profundo que aproveche la enorme potencia informática paralela de la GPU?
- Cómo ingresar a un laboratorio superior de aprendizaje automático o de visión por computadora como erudito visitante
- ¿Qué es el algoritmo de descenso de gradiente?
[matemática] pérdida = F (x_i, y_i) – \ max \ limites _ {\ hat {y} \ neq y_i} F (x_i, \ hat {y}) \ tag * {} [/ math]
donde [math] F (x_i, y_i) = [/ math] y [math] \ Phi (x_i, y_i) [/ math] es la función del núcleo.
Como modelo de etiquetado de secuencia, la ventaja de este modelo sobre el modelo de Markov de entropía máxima (MEMM) y el campo aleatorio condicional (CRF) es la introducción de la no linealidad a través de la función del núcleo, pero el problema con el sesgo de etiqueta como en MEMM persiste.