¿Cómo funciona Hidden Markov compatible con Vector Machine?

Es un modelo oculto de Markov.

[matemáticas] Pr (y_1, …, y_n | x_1, …, x_n) = \ prod \ limits_ {i = 1} ^ n Pr (y_i | y_ {i-1}, x_i) \ tag * {} [/ matemática ]

donde la asignación [math] x [/ math] (observación / característica / atributo) a [math] y [/ math] (etiqueta) se parametriza mediante un clasificador de margen máximo con

[matemática] pérdida = F (x_i, y_i) – \ max \ limites _ {\ hat {y} \ neq y_i} F (x_i, \ hat {y}) \ tag * {} [/ math]

donde [math] F (x_i, y_i) = [/ math] y [math] \ Phi (x_i, y_i) [/ math] es la función del núcleo.

Como modelo de etiquetado de secuencia, la ventaja de este modelo sobre el modelo de Markov de entropía máxima (MEMM) y el campo aleatorio condicional (CRF) es la introducción de la no linealidad a través de la función del núcleo, pero el problema con el sesgo de etiqueta como en MEMM persiste.

More Interesting

¿Puede el aprendizaje automático ayudar en la detección de malware? ¿Cuáles son los cuellos de botella en tal implementación de ML?

¿Cómo funciona el mecanismo de atención de múltiples cabezas en el aprendizaje profundo?

¿Cuál es el mejor curso para especializarse en inteligencia artificial y aprendizaje automático?

¿Cuál es una buena secuencia de autoaprendizaje para el aprendizaje automático?

¿Qué tipo de sistema de recomendación usar con datos extremadamente escasos?

¿Es posible utilizar el aprendizaje automático en la votación para que podamos incluir las razones de los votantes en lugar de sí / no?

¿Por qué es importante la clasificación en papel de ImageNet con redes neuronales convolucionales profundas?

¿Los grandes ingenieros de aprendizaje automático siempre leen nuevos trabajos de investigación sobre ML?

¿Cuáles son algunos de los problemas abiertos más importantes en el aprendizaje automático en este momento?

¿Cuál es la conexión entre un modelo probabilístico y un gráfico en un modelo gráfico probabilístico?

¿Cuáles son las desventajas de usar un árbol de decisión para la clasificación?

¿Cuáles son las principales razones contra el uso de apilamiento cuando tenemos redes neuronales?

¿Cómo se puede usar el aprendizaje profundo para la detección de eventos anormales en los videos?

¿Se pueden utilizar bosques aleatorios para la selección de variables? De ser así, ¿cómo?

¿Qué criterios deberían ser apropiados para terminar el entrenamiento codicioso no supervisado de autoencoder por capas?