¿Qué tipo de modelos o técnicas de aprendizaje automático deberían usarse en los datos de la marca de tiempo del lote (por ejemplo, temperatura durante 2 horas)?

Depende realmente de lo que intentes hacer específicamente (sé que dijiste clasificación, pero sin ver los datos es difícil de medir). Una de las cosas que querrá considerar para cualquier análisis general de series de tiempo son los modelos de promedio móvil (ARIMA, SARIMA, etc.). Dependiendo de sus necesidades, puede usarlas para ayudar a suavizar sus datos, hacer predicciones sobre la variable (temperatura en su caso), etc.

Para la regresión, a mi modo de ver, realmente tienes solo unas pocas opciones.

  • Puede tomar las N mediciones de tiempo anteriores y usarlas como entradas. Entonces, tal vez pueda tomar las últimas 40 mediciones de tiempo para el lote, o tomar cada medición de tercera vez, o … y usarlas para alimentar su modelo.
  • Puede usar alguna combinación de entradas y salidas anteriores y alimentarlas en su modelo; dependiendo de cuáles son las salidas. Esto tiene un poco de retroalimentación, por lo que también deberías considerar eso.
  • Puede usar un modelo de promedio móvil para suavizar sus datos entre series de tiempo y luego usar los datos suavizados como entradas, muestreando con menos frecuencia durante un rango de tiempo más amplio ya que tiene un conjunto de datos más uniforme. También puede considerar el uso de una caída exponencial de importancia para su promedio móvil (la medición de la corriente – 1 es más importante que la corriente – 2 es más importante que la corriente – 3 …) si el peso de las mediciones más recientes necesita Ser más importante.

En cuanto a elegir un modelo, eso también es difícil de decir sin conocer su problema. La regresión logística es a menudo un gran punto de partida porque es relativamente simple. Los clasificadores de vectores de soporte también podrían ser una opción, jugar con los núcleos, dependiendo del tipo de datos que tienden a ser rápidos para conjuntos de datos relativamente pequeños y pueden hacer un trabajo realmente agradable. Si todo lo demás falla, una red neuronal con algunas capas ocultas también puede ser una opción con una capa final de softmax (clasificación). Aquí, las capas ocultas pueden ayudarlo a hacer una gran parte de su ingeniería de características para usted, pero en este caso, necesitaría una gran muestra de entrenamiento para concretar cualquier cosa, por eso lo menciono como una opción de último caso. Las NN son inherentemente buenas en clasificación si se entrenan bien, pero entrenar bien puede tomar una tonelada de datos. Los LSTM y las redes neuronales recurrentes en particular pueden ser realmente buenos para datos sensibles al tiempo / autocorrelacionados.

La mejor de las suertes,

Zach

Aquí está el enlace al libro de Longfellow Deep Learning sobre redes neuronales recurrentes. Debería encontrar una solución razonable en este texto. La versión html es gratuita, pero recomiendo obtener la tapa dura. Es hermoso y está lleno de una visión increíble.

http://www.deeplearningbook.org/