¿Los HMM aún superan a los LSTM en pequeños conjuntos de datos?

Estos no son datos pequeños. El problema no es el número de ejemplos de entrenamiento, son las características por paso de tiempo: tiene ~ 10,000 características. Tienes que encontrar una manera de reducir esos 10,000. Teóricamente, podría tener un gaussiano para cada característica, pero es poco probable que funcione.

Tampoco dices cuántas etiquetas tienes.

Parece que este es un buen ajuste para un enfoque híbrido: construya un enfoque de aprendizaje profundo no supervisado utilizando máquinas de Boltzmann restringidas o escasa autocodificación o redes adversas generativas para reducir el número de dimensiones, luego use eso para la representación del espacio de estado HMM.

La otra preocupación es cuántos estados diferentes tiene en su HMM. Si es así, diga un simple HMM de 5 estados (se espera que diga 10–20 pasos en cada estado), entonces esto podría funcionar. Si tiene 20 estados (cada uno de los 4 pasos), simplemente no tiene suficientes datos para esta tarea.

More Interesting

¿Hay alguna conexión entre el aprendizaje de kernel múltiple (MLK) y el aprendizaje profundo?

¿Hasta dónde nos pueden llevar las redes neuronales / de aprendizaje profundo / IA para encontrar una solución al problema de las noticias falsas?

¿Qué significa decir: "En la geometría de la información, el paso E y el paso M se interpretan como proyecciones bajo dos conexiones afines"?

¿Podemos construir una máquina de visualización de sueños usando el procesamiento de señales?

¿Qué técnicas de aprendizaje automático se utilizan en la industria?

¿Cómo impacta la alta dimensionalidad en la efectividad del modelo?

Aprendizaje profundo: ¿Qué es la búsqueda jerárquica de correspondencia?

¿Cuál es el mejor algoritmo para la extracción de características en imágenes?

Cómo usar un árbol de decisión para clasificar un conjunto de datos no balanceado

¿Por qué no hay implementaciones de aprendizaje profundo (populares) escritas en Golang?

¿Qué significan las hipótesis finita e infinita en el aprendizaje automático? Cuáles son las diferencias entre ellos?

¿Qué otros algoritmos de aprendizaje automático, además del aprendizaje profundo, se aplican ampliamente en aplicaciones comerciales?

¿Por qué la función sigmoidea rara vez se usa en capas ocultas recientemente?

¿Dónde puedo encontrar un tutorial detallado sobre los árboles de decisión?

¿Cómo se puede determinar si un elemento no es apto para ninguna clasificación de acuerdo con el algoritmo Naive Bayes?