¿Por qué los clasificadores Naive Bayes se consideran relativamente inmunes al sobreajuste?

El clasificador Naive Bayes emplea una función de hipótesis muy simple (lineal). Como resultado, sufre un alto sesgo o error resultante de imprecisiones en su clase de hipótesis, porque su función de hipótesis es tan simple que no puede representar con precisión muchas situaciones complejas. Por otro lado, exhibe una varianza baja, o no se puede generalizar a datos invisibles en función de su conjunto de entrenamiento, porque la simplicidad de su clase de hipótesis evita que se ajuste demasiado a sus datos de entrenamiento. Como resultado de este atributo, se ha demostrado que el clasificador Naive Bayes funciona sorprendentemente bien con cantidades muy pequeñas de datos de entrenamiento que la mayoría de los otros clasificadores, y especialmente los ANN, encontrarían significativamente insuficientes.

Pregunta original: ¿Por qué los clasificadores Naive Bayes se consideran relativamente inmunes al sobreajuste?

Related Content

Además de TensorFlow, ¿qué otras bibliotecas de reconocimiento de imágenes son fáciles de usar y mejores?

¿Cuál es mejor? ¿AI o machine learning nanodegree por Udacity?

¿Existen aplicaciones para bandidos multi armados en el campo de aprendizaje profundo?

¿Cuáles son los componentes básicos del reconocimiento de voz desde el punto de vista DSP?

¿Cómo empiezo a analizar una base de datos de análisis web?

¿Qué universidades de la India son buenas para realizar investigaciones en el aprendizaje por refuerzo?

¿Cómo hará Comcast para que la transmisión de video de Netflix sea más rápida?

Debido a que su lenguaje de hipótesis es tan limitado, es muy difícil que se quede atascado en los mínimos locales, siempre que los datos de entrenamiento sean representativos. Dadas las suposiciones que hace (que todos los atributos son independientes entre sí y de la clase), es un clasificador demostrablemente óptimo (ver: el documento de Domingos con la prueba, incluso para situaciones en que se violan las suposiciones).

Sourav Chatterjee

Brevemente, con el algoritmo Naive Bayes (NB), el supuesto de independencia condicional ‘ingenuo’ significa que las interacciones entre variables pueden ignorarse. Lo que sigue es:

i) tiene una función de hipótesis más simple (en comparación con otros algoritmos, por ejemplo, regresión logística)

ii) dado que las interacciones no están modeladas, se ignora parte de la información de los datos. Esto lo convierte en un modelo de sesgo inherentemente alto; tiene un alto error de aproximación pero, como resultado, tampoco se sobreajusta. (Un modelo con alta varianza intenta modelar todos los datos, incluido el ruido en los datos).

iii) Dado que las interacciones no están modeladas, se necesitan menos datos de entrenamiento. Es por eso que se sabe que el clasificador NB funciona bien tanto con pequeños conjuntos de datos como con datos faltantes. Aquí hay un pequeño experimento que hice para ver el efecto que tienen los datos faltantes y el tamaño de los datos de entrenamiento en el clasificador NB.

Sourav Chatterjee

No, en la práctica, Naive Bayes no es inmune al sobreajuste

Me encuentro con casos que están sobreajustados:

1 Elijo un conjunto de trenes que no es representativo, es 95% correcto en el conjunto de trenes mientras que 20% correcto en el conjunto de prueba

2 Elijo las características que no son representativas, lo que también conduce a una diferencia en el conjunto de trenes y el conjunto de pruebas, pero no tan grave como el caso 1

si la muestra de entrenamiento no puede ser representativa y la selección de características es pobre, entonces puede enfrentar un sobreajuste, la muestra de entrenamiento es aún más decisiva

Sourav Chatterjee

No lo son El sobreajuste en los clasificadores Naive Bayes se controla mediante la introducción de anteriores.

Rani Fields

More Interesting

¿Qué tan fuerte es la Universidad de Washington en Machine Learning?

¿Es una buena idea dejar el aprendizaje automático después de 2 años y estudiar desarrollo web, si me di cuenta de que no soy tan inteligente para todas esas matemáticas de ML?

¿Todavía es necesario aprender LDA (distribución de Dirichlet latente)?

Quiero construir una copia casi perfecta de Eva de ex machina, entonces, ¿qué curso o área de informática necesito aprender profundamente?

¿Cuáles son algunas posibles aplicaciones interesantes del aprendizaje automático?

¿Cómo se usa el aprendizaje automático en la generación de preguntas?

¿La IA tradicional se está volviendo obsoleta a la luz del progreso en el aprendizaje profundo?

¿Cómo puedo usar el modelo oculto de Markov sin supervisión para detectar y corregir palabras dobles?

¿Cuál es la diferencia entre segmentación y clasificación en el procesamiento de imágenes?

¿Por qué no se debe hacer AI?

¿Cómo funciona la extracción de características en el procesamiento de imágenes?

¿Cómo funciona realmente el Detector MultiBox Single-Shot (SSD)?

¿Cuáles son algunas aplicaciones del aprendizaje automático y la inteligencia artificial para los datos de detección remota basados en el espacio y los SIG?

¿Por qué la probabilidad condicional es más poderosa que la probabilidad conjunta en un nivel intuitivo?

¿Cuál es la forma más fácil de entender el análisis de componentes principales?

Web Analytics