¿Por qué el suavizado aditivo también se denomina suavizado de Laplace?

Se llama suavizado de Laplace porque el suavizado procede de una lógica de corregir ligeramente las proporciones observadas (en el caso de variables categóricas) en la dirección de una distribución uniforme entre las categorías (es decir, inyectando un poco de equivalencia entre ellas).

Cuando se enfrenta a muy pocos puntos de datos, y puede estar preocupado por el hecho de que algunas categorías no se vean por los datos observados debido al escaso muestreo, intenta “ayudar” a sus datos al introducir una representación mínima para todas las categorías.

La forma de hacer esto con suposiciones mínimas innecesarias sobre las probabilidades es asumir la uniformidad (equi-probabilidad), y ese es un principio que Laplace ideó, algo similar al principio de Occam Razor, excepto que se aplica a las probabilidades.

Por lo tanto, la regla de sucesión (segunda parte de su pregunta) equivale a sembrar las probabilidades que está tratando de estimar con una suposición de probabilidad equitativa y “amortiguar” las frecuencias observadas (de las cuales deducirá sus probabilidades) con un cabello si uniformidad inicial.

Específicamente en sucesión, si está tratando de estimar la probabilidad de que la variable X (n + 1) sea, digamos, positiva o negativa, condicionada a haber observado la proporción de variables X (1), X (2), …, X (n) que son positivos (digamos que p de ellos fueron positivos, lo que lleva a querer usar p / n como su frecuencia observada), en su lugar, corrige la relación observada p / n con (p + 1) / (n + 2 ) como si hubiera observado otras 2 variables antes de X (n + 1), siendo una positiva y otra negativa (es decir, una probabilidad equitativa de 1/2 y 1/2 para estas 2 observaciones ficticias).

Puede ver cómo este reemplazo de p / n por (p + 1) / (n + 2) se parece mucho al suavizado general de Laplace, excepto aquí en un contexto de observaciones sucesivas.