Cómo decidir el tamaño de la muestra para el aprendizaje automático con datos de series temporales

Esta es una pregunta muy difícil: una de las más difíciles de tratar en datos temporales, al menos para responder correctamente en general .

Incluso específicamente , es decir, si tuviera sus datos y supiera su problema exacto, aún podría ser muy difícil de responder. Puede que no sea, pero podría muy bien serlo.

Como ejemplo: supongamos que estamos utilizando datos de series de tiempo multivariadas del mercado de valores (y de hecho del mundo entero) para predecir las caídas del mercado de valores. Esto es bastante difícil, especialmente porque la volatilidad del mercado de valores ha aumentado debido, por ejemplo, a Twitter.

O podríamos mirar Old Faithful, que estalla en diferentes momentos y el patrón cambia con el tiempo, pero ese patrón es predecible.

Dos extremos del mismo problema.

Una respuesta general a esta pregunta sería responder ambas preguntas, al mismo tiempo. Y así, las preguntas generales son mucho más difíciles que las específicas.

Puede hacer esto dinámicamente en el aprendizaje automático. Debe medir si tiene el tamaño de muestra adecuado para las recomendaciones o inferencias que obtiene de los datos. Aquí hay algunas explicaciones de Wiki: Determinación del tamaño de la muestra

A medida que la relación señal / ruido aumenta, el tamaño de muestra requerido se reduce. Para inferir factores más pequeños de un conjunto de datos, necesita más tamaño de muestra es más importante que si está midiendo un factor más grande.