¿Es necesario tener datos estacionarios para aplicar algún tipo de algoritmo de aprendizaje automático?

Pues sí y no.

Asumimos una distribución estacionaria, pero en realidad no existen, y sin embargo, el aprendizaje automático funciona bastante bien en muchos escenarios.

Normalmente hacemos una división temporal para la validación, por lo que vemos qué tan bien se mantiene nuestro modelo con el tiempo. Pero incluso aquí asumimos que lo que era estable en el pasado seguirá siéndolo en el futuro.

El aprendizaje automático, como cualquier aprendizaje, supone que puedes aprender del pasado y aplicarlo al futuro. Todos confiamos en esto y, sin embargo, a veces no es así. Ya en la antigua Grecia hubo quienes intentaron argumentar que no se puede aprender del pasado sobre el futuro, pero esta búsqueda de esa certeza no es muy productiva.

Al aprender del pasado, hay varias cosas que nos ayudan a convencernos de que podemos predecir el futuro. Una es la estabilidad en el pasado, si vemos la estabilidad del modelo, la distribución de la variable explicativa, la variable objetivo, la distribución predicha y la precisión del modelo a lo largo del tiempo. Todo esto nos da confianza de que nuestro modelo continuará mostrando un nivel similar de estabilidad en el futuro (de un orden de magnitud similar).

También buscamos la explicación del mecanismo. Si las características que utilizamos en nuestro modelo tienen sentido, podemos razonar intuitivamente por qué tienen el efecto que tienen. Incluso después del hecho, esto aumenta nuestra confianza en nuestro modelo.

También conocemos muchos plazos comunes para los efectos. Día semana mes año. Si observamos algo durante 10 años, estamos bastante seguros de que continuará durante más años. Pero si observamos algo durante 100 días, todavía tenemos dudas de que puede haber un ciclo anual que nos falta porque sabemos que muchas cosas tienen un ciclo anual. Si se trata de un experimento de laboratorio de física, no estamos tan preocupados por los ciclos anuales y ganamos confianza incluso si nuestras muestras fueron recolectadas en un corto período de tiempo.

Obviamente, incluso si todo se ve muy bien y tenemos un modelo explicable encantador con una gran estabilidad temporal, todavía podemos tener algo inesperado, un evento de cisne negro. Esto sucede, pero todavía no son una razón para dejar de aprender, solo sugiere que nuestro modelo puede no ser tan preciso como creemos que es con el tiempo. Pero cuando usamos modelos para tomar decisiones, podemos tomar mejores decisiones en general con nuestro modelo incluso ante eventos inesperados poco comunes.