¿Se pueden usar los modelos ocultos de Markov como clasificadores binarios? Si es así, ¿cómo?

Como explica @ Quora User , los modelos de Markov ocultos se utilizan para predicciones secuenciales o estructuradas. Es un modelo de secuencia. Digamos que quieres identificar sustantivos y verbos en una oración. Luego, hay varias etiquetas en una oración, por supuesto, podemos usar un modelo de clasificación simple para cada tipo de etiqueta, pero no tomaría en consideración el contexto de la otra etiqueta.

Para explicar los modelos de secuencia con otro escenario útil, suponga que está haciendo análisis de clics para un sitio web. Realiza un seguimiento de la secuencia de clics realizados por el usuario, desea predecir los siguientes clics posibles. Este es un modelo de secuencia.

Además, los modelos ocultos de Markov podrían considerarse como la extensión gráfica del modelo Naive Bayes. El documento “Introducción a los campos aleatorios condicionales para el aprendizaje relacional” explica esto maravillosamente. Aquí hay una foto del periódico
NaiveBayes y HMM modelan la distribución conjunta y son modelos generativos, mientras que como Regresión Logística y CRF modelan la distribución condicional y son modelos discriminativos. Por favor lea la sección 1.2.3
Modelos discriminativos y generativos del trabajo. Todos estos modelos están relacionados en función de la distribución de probabilidad que modelan y ayuda mucho a tener una idea de cómo funcionan estos modelos.

Este blog también es muy útil para comprender el panorama general Introducción a los campos aleatorios condicionales.

En resumen, ayuda a entender la relación entre HMM, CRF, naivebayes y regresión logística para aprender los conceptos detrás de ellos. Por lo tanto, es mejor tratarlos juntos en lugar de aprender uno a la vez.

HMM se utiliza para predicciones estructuradas, por ejemplo, en datos de secuencia como voz, texto, ADN

Si necesita predecir etiquetas (binarias o no) en cada token en una secuencia, HMM es muy bueno para eso. Si solo necesita una única predicción binaria en general, no puede simplemente usar HMM, aunque quizás pueda alimentar la salida de HMM a otro clasificador.

Sí pueden. Y muy eficazmente!

Para el cómo, lo remito a este maravilloso artículo de Lawrence Rabiner que ha ayudado a miles (incluido yo mismo) a comprender el concepto de HMM.

Página sobre Sabanciuniv

Creo que esta es la forma en que lo haría. Quizás haya una mejor manera:

Haría la estimación MAP. Crearía dos HMM, uno para cada clase. Obtenga las características del conjunto de entrenamiento para cada clase y aprenda los parámetros usando Expectation-Maximization.

Luego, para la muestra de prueba, extraiga las características y para ambos modelos obtenga la probabilidad posterior. Clasifique la muestra como la clase con mayor probabilidad posterior.

More Interesting

Proyectos para el procesamiento del lenguaje natural y herramientas de lenguaje para un lenguaje índico

Cómo automatizar la selección de características en un conjunto de datos que involucra muchos datos no numéricos

¿Cuáles son algunos de los requisitos previos necesarios para aprender el aprendizaje automático o la inteligencia artificial?

¿Qué cursos de estadística de Harvard debería tomar si quiero aprender aprendizaje estadístico / aprendizaje automático?

¿Es cierto que incluso si podemos modelar a partir de la distribución del modelo [matemática] p (x) [/ matemática], el muestreo de importancia óptima no es [matemática] p (x) [/ matemática]?

¿Es el curso de aprendizaje automático de Andrew Ng en Coursera una versión simplificada del curso CS 229: aprendizaje automático que enseñó en Stanford?

¿Qué está sucediendo en este gráfico de pérdida de precisión de la red?

¿Por qué funciona la función de costo de regresión logística?

¿Por qué es importante la clasificación en papel de ImageNet con redes neuronales convolucionales profundas?

¿Cuál es la mejor introducción al aprendizaje profundo para un estudiante graduado con experiencia en matemáticas y CS?

¿La variable de tiempo muestra una conexión recurrente en RNN?

La IA ha existido por décadas. ¿Qué condujo a toda la publicidad reciente de AI / Deep Learning?

¿Qué significa el espacio de hipótesis en Machine Learning?

Conciencia del contexto: ¿Qué es el descubrimiento de noticias anticipatorio?

¿Cuál es la diferencia entre el aprendizaje probabilístico y el aprendizaje no probabilístico para diferentes situaciones? ¿Cuándo es uno más apropiado que el otro?