¿Qué metodologías populares de aprendizaje automático se usan típicamente con datos que no son iid?

Si realmente tiene datos muy no relacionados con iid, como en los datos econométricos de series de tiempo, ML no lo ayudará directamente * (ver más abajo)

Para modelar una serie temporal, debe crear un modelo científico plausible que no dependa explícitamente de la suposición iid o de sus datos, y luego ver si puede predecir datos basados ​​en nuestro modelo.

Esta es, por ejemplo, una práctica común en el modelo econométrico de series de tiempo financieras, en el que si utiliza técnicas de LD para ajustar los datos, se ajustará absolutamente. En su lugar, crea un modelo que predice el mercado en función de las señales sobre las propias empresas (no el precio de sus acciones), y luego vuelve a probarlo para ver qué tan bien lo hubiera hecho si lo hubiera cambiado.

* excepciones
Con frecuencia se intenta encontrar alguna parte de los datos de iid que es, de hecho, iid.
Por ejemplo, los rendimientos del mercado de valores no son idóneos, pero quizás lo sean las volatilidades.
Luego, puede modelar volatilidades utilizando técnicas de ML para eliminar los datos y encontrar la señal, aunque esto generalmente se hace utilizando un método paramétrico (como el modelado GARCH) o utilizando la teoría de matrices aleatorias

Esto es bastante complicado y las técnicas como la tendencia no necesariamente funcionan porque no está claro cuál es la tendencia y cuál es el cambio en la volatilidad.

**comentario

El enfoque SVM de 1 clase, mencionado anteriormente, no está diseñado para datos que no sean iid. Más bien, es para la detección de novedades, lo que está relacionado pero es mucho menos general. El SVM de 1 clase resuelve el problema técnico de estimar el “soporte” de una función de distribución, en lugar de estimar directamente la densidad misma. En general, esto es lo “correcto” para hacer con distribuciones no finitas porque existen distribuciones patológicas que pueden tener singularidades, lo que las hace muy difíciles de estimar. La metodología permite estimar una distribución mediante la aplicación de conocimientos previos (a través del regularizador) de una manera imposible con las técnicas tradicionales. Técnicamente, por lo general, se supone que algo así es iid con soporte compacto y tiene algunas singularidades aisladas. Para la detección de novedades, se supone implícitamente que los datos novedosos son aquellos que no comparten ninguna característica con los datos de entrenamiento (es decir, están en el origen en el espacio del Kernel). Esto es bastante diferente de estimar una distribución no iid, o incluso una verdadera “distribución singular” (que es patológica en casi todas partes) Si vuelve al documento SVM original de 1 clase ( Estimando el soporte de una distribución de alta dimensión por Scholkopf, Platt, Shawe-Taylor, Smola y Williamson, 2001), verán que lo primero que hacen es asumir una distribución iid y definir una familia de estimadores de densidad …

El problema de los datos que no son iid se puede encontrar en muchos entornos y se aplicarán diferentes metodologías según el problema. Éstas incluyen:

* Problemas de clasificación de ‘conjunto abierto’, donde existen categorías en el conjunto de prueba que no están representadas en el conjunto de entrenamiento. Una metodología para lidiar con esto es la ‘clasificación de una clase’ que no elige entre un conjunto dado de clases sino que solo clasifica como perteneciente o no a una clase.

* ‘Deriva conceptual’ en series de tiempo, que requieren reentrenamiento.

* Tendencias simples y estacionalidad en series de tiempo, donde el remedio está en tendencia.

Aprendizaje relacional estadístico. http://en.wikipedia.org/wiki/Sta