¿Cómo se puede determinar si un elemento no es apto para ninguna clasificación de acuerdo con el algoritmo Naive Bayes?

Aquí hay una manera rápida y sucia:

Para los datos de entrenamiento, mire las probabilidades de registro resultantes para los datos de entrenamiento en cada clase después de entrenar el clasificador Naive Bayes. Elija un% arbitrario de los datos (digamos 95%) para llamar “representante” de la clase, para ignorar los valores atípicos en los datos de entrenamiento. Para cada clase, clasifique las probabilidades de registro de los puntos de datos correspondientes y elija un umbral tal que el 95% de los datos tenga una probabilidad de registro mayor que ese umbral. Para determinar si los datos de la prueba son diferentes de los datos de entrenamiento de acuerdo con el clasificador NB, determine la probabilidad de registro para cada clase en el punto de datos de la prueba. Si cada log-verosimilitud está por debajo del umbral correspondiente, entonces es probable que el punto de datos no esté bien representado por el conjunto de entrenamiento.

Una advertencia es que el clasificador NB supone que cada característica es condicionalmente independiente, por lo que este método puede no generalizarse bien a características altamente correlacionadas.

Los métodos más sofisticados incluyen tomar un KDE no paramétrico de las probabilidades de registro resultantes para cada clase y calcular la probabilidad de que el punto de datos de prueba provenga de la misma distribución que los datos de entrenamiento de esto, o buscar valores atípicos en el nivel de las características individuales.

¿Cuál es tu aplicación? Es probable que el mejor método para usar sea dependiente de la aplicación

google ‘detección de anomalías’ … eso es exactamente lo que quiere hacer … un pequeño consejo … si sus características están altamente correlacionadas, entonces decórelas primero … puede probar PCA para eso …

Calcule su entropía y compárela con un umbral predefinido.
O defina previamente un umbral para la probabilidad de registro en cada categoría y solo asigne una etiqueta de clasificación si la probabilidad de registro calculada es mayor que el umbral.