En Machine Learning, ¿por qué aplicamos a menudo la suposición de registros independientes e idénticamente distribuidos?

La respuesta simple y simple es un cálculo más rápido y menos desordenado. Los modelos de capacitación tardan más de lo que la gente quisiera incluso con la informática distribuida. Tampoco es que los modelos / representaciones de aprendizaje automático, como las redes neuronales, modelen el cerebro exactamente. Los investigadores acaban de hacer todo lo posible para imitar algunas de las capacidades que tiene el cerebro. El cerebro humano es tan brillante, ni siquiera podemos acercarnos a imitar sus capacidades. También sucede que a través de pruebas empíricas, en muchos casos, los modelos con supuestos simplificadores funcionan tan bien como los modelos con más complejidad.

Además, los supuestos de iid a veces resultan en fórmulas muy bonitas.

TLDR;

Los investigadores trabajan con los recursos limitados (p. Ej., Hardware) y el conocimiento (documentos técnicos escritos hasta el momento), por lo que deben hacer suposiciones para poder obtener un resultado en un tiempo razonable. O a veces necesitan hacer una suposición para obtener algún resultado.

La mayoría de los algoritmos de Machine Learning se basan en principios de probabilidad estadística, que suponen que los registros son independientes e idénticamente distribuidos. Las aplicaciones de dicho algoritmo no serán válidas si los registros de entrenamiento no son independientes e idénticamente distribuidos. Si los registros no son independientes e idénticamente distribuidos, será necesario agregar algunos campos para explicar las interdependencias de los registros de capacitación.