Cómo tener una buena inicialización de la probabilidad previa, la probabilidad de emisión en los modelos ocultos de Markov ya que los HMM son óptimos locales

Aquí hay algunos enfoques diferentes posibles, y mucho depende del tipo de modelo oculto de Markov que esté tratando de entrenar, por ejemplo, si se trata de un modelo oculto de Markov de izquierda a derecha, un modelo ergódico completo o algún otro tipo.

Entonces, hay algunos enfoques diferentes:

  • Solo hazlo al azar. Este es un buen punto de partida; y te sorprenderías con qué frecuencia los mínimos locales no son lo suficientemente buenos.
  • Reinicios aleatorios. Entrene un modelo oculto de Markov con diferentes valores aleatorios 50 o 100 veces, y vea (a) cuál funciona mejor (b) si hay una gran diferencia en el rendimiento entre el mejor y el peor de estos.
  • Opciones específicas del dominio: puede haber una forma muy natural de asignar estados iniciales dependiendo de, por ejemplo, si es un HMM de izquierda a derecha, y está tratando de aprender el habla de los MFCC, y tiene 5 estados y un secuencia de 40 valores; entonces comenzaría asignando secuencialmente 8 valores a cada estado, establecería la probabilidad de transiciones en 0.8 ^ 8 = 0.17 y asignaría los gaussianos por estado en función de las emisiones que vio. Otros dominios tendrán otras opciones obvias; Por ejemplo, un previo sobre la distribución de todas las emisiones, etc.

More Interesting

Cómo saber si una startup tecnológica que ofrece soluciones empresariales que utilizan el aprendizaje exclusivo en profundidad está tratando de estafar a mi empresa

¿Qué método de aprendizaje profundo usar para clasificar archivos de texto?

¿Son las redes de tipo neuronal el único juego real en la ciudad o podemos desarrollar máquinas sofisticadas de IA que no piensen como los humanos?

¿Cómo debo proceder después de completar el curso de aprendizaje automático de Andrew Ng?

¿Cuál es la diferencia entre perceptrón y maximización de expectativas?

¿Cuál es el mejor algoritmo para implementar un reconocimiento de voz robusto en entornos ruidosos?

En la clasificación SVM, ¿es posible encontrar la muestra de entrenamiento más cercana a la muestra de prueba dada?

¿Por qué y cuándo subestima 'varianza de Bayes variacional de campo'?

¿Debo memorizar las matemáticas y los algoritmos al aprender el aprendizaje automático y el aprendizaje profundo?

¿Qué puedo hacer con un conjunto de datos de temperatura?

¿Puede LSTM u otro tipo de red neuronal recurrente aprender a extraer y representar un estado de Markov?

¿Cuáles son las ideas principales detrás de los principales algoritmos de clasificación de búsqueda?

¿Es GitHub o GitLab más adecuado para una empresa de ciencia de datos / ML?

Aprendizaje profundo: ¿Qué técnica de preprocesamiento es necesaria para los parches de imágenes para obtener características relevantes?

¿Qué algoritmo funciona mejor para bandidos adversarios?