Cómo calcular el factor de escala 1 / z en la clasificación de Naive Bayes

Suponiendo que utiliza la terminología utilizada por el artículo de Wikipedia sobre la clasificación de Naive Bayes, el factor de escala [matemática] 1 / Z [/ matemática] es el recíproco de la probabilidad del vector de características [matemática] x [/ matemática]. Asi que:

[matemáticas] Z = p (x) [/ matemáticas]

Usando la ley de probabilidades totales:

[matemáticas] p (x) = \ sum_ {C} p (C_k) * p (x | C_k) [/ matemáticas]

Por último, utilizando la suposición de Naive Bayes:

[matemáticas] \ sum_ {C} p (C_k) * p (x | C_k) = \ sum_ {C} p (C_k) * \ prod_ {i = 1} ^ {n} p (x_i | C_k) [/ math ]

Afortunadamente, uno no tiene que calcular este valor a los efectos de la clasificación de Naive Bayes. La probabilidad condicional de cada clase debería multiplicarse teóricamente por este factor de escala. Sin embargo, la clasificación solo requiere encontrar la clase con la mayor probabilidad condicional. En consecuencia, podemos omitir el cálculo de este factor de escala y simplemente encontrar la clase para la cual la probabilidad condicional sin escala es más alta, que será la misma clase para la cual la probabilidad condicional con escala es más alta. Omitir el cálculo del factor de escala acelerará la clasificación en una pequeña cantidad.