¿Por qué los clasificadores Naive Bayes se consideran relativamente inmunes al sobreajuste?

El clasificador Naive Bayes emplea una función de hipótesis muy simple (lineal). Como resultado, sufre un alto sesgo o error resultante de imprecisiones en su clase de hipótesis, porque su función de hipótesis es tan simple que no puede representar con precisión muchas situaciones complejas. Por otro lado, exhibe una varianza baja, o no se puede generalizar a datos invisibles en función de su conjunto de entrenamiento, porque la simplicidad de su clase de hipótesis evita que se ajuste demasiado a sus datos de entrenamiento. Como resultado de este atributo, se ha demostrado que el clasificador Naive Bayes funciona sorprendentemente bien con cantidades muy pequeñas de datos de entrenamiento que la mayoría de los otros clasificadores, y especialmente los ANN, encontrarían significativamente insuficientes.

Pregunta original: ¿Por qué los clasificadores Naive Bayes se consideran relativamente inmunes al sobreajuste?

Debido a que su lenguaje de hipótesis es tan limitado, es muy difícil que se quede atascado en los mínimos locales, siempre que los datos de entrenamiento sean representativos. Dadas las suposiciones que hace (que todos los atributos son independientes entre sí y de la clase), es un clasificador demostrablemente óptimo (ver: el documento de Domingos con la prueba, incluso para situaciones en que se violan las suposiciones).

Brevemente, con el algoritmo Naive Bayes (NB), el supuesto de independencia condicional ‘ingenuo’ significa que las interacciones entre variables pueden ignorarse. Lo que sigue es:

i) tiene una función de hipótesis más simple (en comparación con otros algoritmos, por ejemplo, regresión logística)

ii) dado que las interacciones no están modeladas, se ignora parte de la información de los datos. Esto lo convierte en un modelo de sesgo inherentemente alto; tiene un alto error de aproximación pero, como resultado, tampoco se sobreajusta. (Un modelo con alta varianza intenta modelar todos los datos, incluido el ruido en los datos).

iii) Dado que las interacciones no están modeladas, se necesitan menos datos de entrenamiento. Es por eso que se sabe que el clasificador NB funciona bien tanto con pequeños conjuntos de datos como con datos faltantes. Aquí hay un pequeño experimento que hice para ver el efecto que tienen los datos faltantes y el tamaño de los datos de entrenamiento en el clasificador NB.

No, en la práctica, Naive Bayes no es inmune al sobreajuste

Me encuentro con casos que están sobreajustados:

1 Elijo un conjunto de trenes que no es representativo, es 95% correcto en el conjunto de trenes mientras que 20% correcto en el conjunto de prueba

2 Elijo las características que no son representativas, lo que también conduce a una diferencia en el conjunto de trenes y el conjunto de pruebas, pero no tan grave como el caso 1

si la muestra de entrenamiento no puede ser representativa y la selección de características es pobre, entonces puede enfrentar un sobreajuste, la muestra de entrenamiento es aún más decisiva

No lo son El sobreajuste en los clasificadores Naive Bayes se controla mediante la introducción de anteriores.