En el contexto del aprendizaje automático, ¿qué tan fuerte es la siguiente suposición: algún dato proviene de alguna distribución subyacente?

Esta es una pregunta interesante, y no pretendo tener la respuesta. Solo estoy bajando mis pensamientos para comenzar la discusión.

Primero, en términos de suponer que los datos son iid, creo que la suposición se puede relajar en diferentes grados. Podría cambiar la suposición para que los puntos de datos se distribuyan de manera idéntica (controlando el peso de diferentes observaciones o tratándolas de manera diferente cuando dibuja las probabilidades para ellas). También puede tratar de suponer quizás una red bayesiana para que la distribución formalice estas diferencias. Las pruebas pueden ser más difíciles y las matemáticas pueden estar más definidas empíricamente y tener una forma menos cerrada, pero es posible no asumirlo.

En términos de su pregunta principal sobre el supuesto de que “los datos provienen de alguna distribución subyacente”, no estoy seguro de cómo no podría asumir una distribución. Una distribución es solo una definición de cómo se producen los datos. En la naturaleza, estos tienden a basarse en las leyes de energía / masa / física. Las leyes científicas describen la distribución por la cual se producen cantidades estadísticas. Incluso si no está analizando datos detectados de la naturaleza, ¡cualquier código de simulación que escriba también está produciendo datos! Su simulación define una distribución particular que produce datos. Esa distribución puede ser dinámica y no estática, pero aún sería una distribución descrita en términos de variables dinámicas. Incluso si inventa los datos usted mismo, su cerebro es la función del generador de distribución. Incluso si está trabajando en un espacio abstracto, sus ideas se extraen de alguna distribución.

¿Es filosóficamente posible no tener una distribución de datos al analizar algo en el mundo real?