¿Por qué asumiríamos que los datos son iid cuando no lo son?

En las estadísticas (inferenciales), la ciencia de datos / aprendizaje automático recuerda las palabras del gran estadístico: “Todos los modelos están equivocados, algunos son útiles”. (Casi) NUNCA obtendrás datos verdaderamente iid, a menos que se generen específicamente para ese propósito. Sin embargo, en muchos casos, su suposición de iid hace que el modelo sea lo suficientemente simple y proporciona resultados “más que decentes” si no muy buenos, por lo que el hecho de que los datos no sean iid no tiene mucho impacto. En problemas específicos como el pronóstico de series temporales, píxeles en una imagen para el procesamiento de imágenes: los datos no se identifican y los modelos son adecuados para dicho análisis.

Por lo tanto, sus datos no se muestran como una simplificación del modelo: como cualquier otro modelo, no es la forma en que funciona el mundo (una regresión logística de puntaje de crédito no significa que las personas no cumplan debido a las condiciones del modelo en el mismo) pero el modelo funciona bien en Un sentido estadístico.

Excelente pregunta! Creo que simplemente estamos siendo engañados por nuestra suposición de que una máquina es capaz de aprender. No lo es. Es capaz de ejecutar algoritmos adaptativos de complejidad arbitraria, pero eso no es aprender. Las redes neuronales profundas, con ReLU y neuronas más complejas, se pueden “entrenar” para adaptarse a las condiciones cambiantes, pero ¿puede tomar una red neuronal que haya sido entrenada para jugar Go y reutilizarla para, por ejemplo, pronósticos de series de tiempo? ¿O requiere volver a entrenar el sistema? Diferentes tareas requieren diferentes soluciones.

Volviendo a su pregunta específica: a veces asumimos iid, porque las suposiciones hacen que nuestras vidas sean más fáciles y evitan que caigamos en la parálisis a través de la trampa del análisis. Y luego vigilamos de cerca los datos y volvemos a ejecutar el modelo de forma regular.

Todos los modelos están equivocados, pero algunos son útiles.

Dicho esto, casi ningún método supone datos independientes e idénticamente distribuidos (iid), de hecho, el objetivo de la mayoría de los métodos estadísticos es descubrir cómo cambia la distribución de algunas variables con el valor de otras variables.

Lo que generalmente se supone que es iid son los términos de error. Esto tiene sentido ya que si comienza a modelar la estructura de sus términos de error, dejarán de ser los términos de error.

Aquí está el ejemplo de una regresión lineal simple:

[matemáticas] y_i = c + b \ cdot x_i + e_i [/ ​​matemáticas]

No se supone que [math] y_i [/ ​​math] sea iid ya que se extraen de distribuciones normales con diferentes medios [math] b \ cdot x_i [/ ​​math]. Solo se supone que los términos de error [math] e_i [/ ​​math] son ​​iid.

Pero, ¿qué sucede si descubre que las [math] e_i [/ ​​math] no están distribuidas de manera idéntica, sino que su distribución depende en gran medida de otra variable llamada [math] z_i [/ ​​math]? Bueno, entonces tu nuevo modelo se convierte

[matemáticas] y_i = c + b \ cdot x_i + d \ cdot z_i + f_i [/ ​​matemáticas]

con nuevos términos de error [math] f_i [/ ​​math].

Puede repetir este proceso de agregar complejidad a su modelo para capturar alguna estructura de sus términos de error hasta que estos sean realmente id. Pero en la práctica, debe detenerse mucho antes de eso, cuando agregar más complejidad ya no mejora la utilidad del modelo que está construyendo.