Cómo decidir el tamaño de la muestra para el aprendizaje automático con datos de series temporales

Esta es una pregunta muy difícil: una de las más difíciles de tratar en datos temporales, al menos para responder correctamente en general .

Incluso específicamente , es decir, si tuviera sus datos y supiera su problema exacto, aún podría ser muy difícil de responder. Puede que no sea, pero podría muy bien serlo.

Como ejemplo: supongamos que estamos utilizando datos de series de tiempo multivariadas del mercado de valores (y de hecho del mundo entero) para predecir las caídas del mercado de valores. Esto es bastante difícil, especialmente porque la volatilidad del mercado de valores ha aumentado debido, por ejemplo, a Twitter.

O podríamos mirar Old Faithful, que estalla en diferentes momentos y el patrón cambia con el tiempo, pero ese patrón es predecible.

Dos extremos del mismo problema.

Una respuesta general a esta pregunta sería responder ambas preguntas, al mismo tiempo. Y así, las preguntas generales son mucho más difíciles que las específicas.

Related Content

¿Por qué el bandido multi-armado es un MDP de un estado?

¿Cómo entrenar codificadores automáticos dispersos en imágenes?

¿Cuáles son algunos buenos proyectos en los que un principiante de aprendizaje automático puede trabajar?

¿Cómo funciona el texto predictivo?

¿Cuál es el flujo de trabajo típico para usar el aprendizaje profundo para resolver un problema?

¿Por qué es importante aprender el descenso de gradiente en el aprendizaje automático?

¿Cuál es la diferencia entre el aprendizaje automático y el análisis de datos?

Puede hacer esto dinámicamente en el aprendizaje automático. Debe medir si tiene el tamaño de muestra adecuado para las recomendaciones o inferencias que obtiene de los datos. Aquí hay algunas explicaciones de Wiki: Determinación del tamaño de la muestra

A medida que la relación señal / ruido aumenta, el tamaño de muestra requerido se reduce. Para inferir factores más pequeños de un conjunto de datos, necesita más tamaño de muestra es más importante que si está midiendo un factor más grande.

JQ Veenstra

More Interesting

¿Cuáles son los conjuntos de datos beneficiosos para el análisis de sentimientos de Twitter como proyecto de análisis de datos?

¿Cómo explicaría el concepto de una capa convolucional en una red profunda a una persona no técnica?

¿Puede la red neuronal convolucional reconocer un objeto en cualquier condición?

¿Cuáles son algunas implementaciones geniales de aprendizaje automático?

¿Cómo puede un estado en el aprendizaje por refuerzo tener dos valores? Por ejemplo, como en el blackjack donde el as es 1 u 11.

¿Tenemos que aprender matemáticas detrás de cada algoritmo de aprendizaje automático?

¿Cómo pudo Mark Zuckerberg implementar algoritmos de aprendizaje automático a la edad de 14 años?

¿Qué es la agrupación?

¿Se moverá el conjunto de problemas ICPC para incluir sistemas distribuidos y aprendizaje automático en el futuro?

Mi algoritmo de ML, escrito en Python, está casi completo. Quiero que sea un sitio web. ¿Cuál es la mejor manera de conectar mi script Python a Meteor?

¿Debo aprender C ++, Python o Java para construir un sistema de aprendizaje automático de grado de producción?

Cómo calcular gradientes en una red neuronal de avance utilizando matrices

¿Qué título debo tomar para entrar en la investigación de Deep Learning? (Graduado de CS)

¿Hay un LSTM en TensorFlow que procesa un carácter a la vez?

Cómo explicar la diferencia entre RPCA y PCA

Web Analytics