Depende realmente de lo que intentes hacer específicamente (sé que dijiste clasificación, pero sin ver los datos es difícil de medir). Una de las cosas que querrá considerar para cualquier análisis general de series de tiempo son los modelos de promedio móvil (ARIMA, SARIMA, etc.). Dependiendo de sus necesidades, puede usarlas para ayudar a suavizar sus datos, hacer predicciones sobre la variable (temperatura en su caso), etc.
Para la regresión, a mi modo de ver, realmente tienes solo unas pocas opciones.
- Puede tomar las N mediciones de tiempo anteriores y usarlas como entradas. Entonces, tal vez pueda tomar las últimas 40 mediciones de tiempo para el lote, o tomar cada medición de tercera vez, o … y usarlas para alimentar su modelo.
- Puede usar alguna combinación de entradas y salidas anteriores y alimentarlas en su modelo; dependiendo de cuáles son las salidas. Esto tiene un poco de retroalimentación, por lo que también deberías considerar eso.
- Puede usar un modelo de promedio móvil para suavizar sus datos entre series de tiempo y luego usar los datos suavizados como entradas, muestreando con menos frecuencia durante un rango de tiempo más amplio ya que tiene un conjunto de datos más uniforme. También puede considerar el uso de una caída exponencial de importancia para su promedio móvil (la medición de la corriente – 1 es más importante que la corriente – 2 es más importante que la corriente – 3 …) si el peso de las mediciones más recientes necesita Ser más importante.
En cuanto a elegir un modelo, eso también es difícil de decir sin conocer su problema. La regresión logística es a menudo un gran punto de partida porque es relativamente simple. Los clasificadores de vectores de soporte también podrían ser una opción, jugar con los núcleos, dependiendo del tipo de datos que tienden a ser rápidos para conjuntos de datos relativamente pequeños y pueden hacer un trabajo realmente agradable. Si todo lo demás falla, una red neuronal con algunas capas ocultas también puede ser una opción con una capa final de softmax (clasificación). Aquí, las capas ocultas pueden ayudarlo a hacer una gran parte de su ingeniería de características para usted, pero en este caso, necesitaría una gran muestra de entrenamiento para concretar cualquier cosa, por eso lo menciono como una opción de último caso. Las NN son inherentemente buenas en clasificación si se entrenan bien, pero entrenar bien puede tomar una tonelada de datos. Los LSTM y las redes neuronales recurrentes en particular pueden ser realmente buenos para datos sensibles al tiempo / autocorrelacionados.
- Como persona con una maestría en química y un doctorado en ingeniería eléctrica y nanotecnología, a los 26 años sin experiencia en ciencias de la computación, ¿es demasiado tarde o demasiado difícil enseñarme a mí mismo el aprendizaje automático?
- ¿Qué es un núcleo universal en el contexto del aprendizaje automático?
- ¿Cuál es una buena puntuación porcentual en los problemas de conocimiento de Kaggle para principiantes?
- ¿Es el aprendizaje automático una mejor forma o técnica para comprender los datos y hacer pronósticos que las estadísticas?
- ¿Cómo funciona la función "Tiempos populares" de Google Maps?
La mejor de las suertes,
Zach