¿Cómo se puede determinar si un elemento no es apto para ninguna clasificación de acuerdo con el algoritmo Naive Bayes?

Aquí hay una manera rápida y sucia:

Para los datos de entrenamiento, mire las probabilidades de registro resultantes para los datos de entrenamiento en cada clase después de entrenar el clasificador Naive Bayes. Elija un% arbitrario de los datos (digamos 95%) para llamar “representante” de la clase, para ignorar los valores atípicos en los datos de entrenamiento. Para cada clase, clasifique las probabilidades de registro de los puntos de datos correspondientes y elija un umbral tal que el 95% de los datos tenga una probabilidad de registro mayor que ese umbral. Para determinar si los datos de la prueba son diferentes de los datos de entrenamiento de acuerdo con el clasificador NB, determine la probabilidad de registro para cada clase en el punto de datos de la prueba. Si cada log-verosimilitud está por debajo del umbral correspondiente, entonces es probable que el punto de datos no esté bien representado por el conjunto de entrenamiento.

Una advertencia es que el clasificador NB supone que cada característica es condicionalmente independiente, por lo que este método puede no generalizarse bien a características altamente correlacionadas.

Los métodos más sofisticados incluyen tomar un KDE no paramétrico de las probabilidades de registro resultantes para cada clase y calcular la probabilidad de que el punto de datos de prueba provenga de la misma distribución que los datos de entrenamiento de esto, o buscar valores atípicos en el nivel de las características individuales.

¿Cuál es tu aplicación? Es probable que el mejor método para usar sea dependiente de la aplicación

Related Content

¿Una red neuronal necesita un nodo de salida para cada cosa que pueda clasificar?

¿Cuántos documentos son suficientes para estudiar para escribir una encuesta sobre aprendizaje profundo?

Construcción del modelo de correlación / regresión: ¿Cuándo debo usar variables dependientes / independientes reales, y cuándo debo usar sus tasas de crecimiento?

Máquinas de factorización: ¿cómo hacen los FM para hacer predicciones y aprender?

¿Cuál es la diferencia entre 'Inferencia' y 'Estimación del modelo' en los documentos de LA?

¿Cuáles son los mejores métodos para recopilar datos de entrenamiento para el algoritmo Naive Bayes?

¿Cómo sería tener miles de años de documentos bien guardados?

google ‘detección de anomalías’ … eso es exactamente lo que quiere hacer … un pequeño consejo … si sus características están altamente correlacionadas, entonces decórelas primero … puede probar PCA para eso …

Maruti Agarwal

Calcule su entropía y compárela con un umbral predefinido.
O defina previamente un umbral para la probabilidad de registro en cada categoría y solo asigne una etiqueta de clasificación si la probabilidad de registro calculada es mayor que el umbral.

Maruti Agarwal

More Interesting

¿Cómo comenzó Perl como el idioma dominante en bioinformática?

¿Puedo usar TensorFlow sin tener experiencia con el aprendizaje automático?

Cómo usar Azure Machine Learning para la clasificación de documentos

¿Cuál es la diferencia entre TF-IDF-CF y CF-IDF?

¿Cuál es la diferencia entre minería de datos, aprendizaje automático y reconocimiento de patrones?

¿Cuál es una variedad de problemas y problemas que pueden resolverse mediante la minería de datos y el aprendizaje automático? ¿Qué tipo de algoritmo se utiliza para qué tipo de problema?

¿Qué puedo hacer con un conjunto de datos de temperatura?

¿Qué piensan los científicos de los expertos en SEO?

¿Cuál es la mejor estimación para la existencia de una máquina del tiempo?

¿Es posible determinar cuánto 'aprende' una red neuronal desde un punto de datos dado en el conjunto de entrenamiento?

¿Cómo puedo sobresalir en el aprendizaje automático con antecedentes estadísticos?

¿Puedo usar el aprendizaje profundo o ANN para un problema de agrupación como KNN?

¿Puede una red neuronal LSTM aprender a reescribir un código C en C ++ sabiendo que lo entrené con un conjunto de datos equivalente a la instrucción C / C ++?

¿Hay alguna manera de probar el límite de precisión teórica para clasificar un conjunto de datos en particular? O, ¿hay alguna forma de confirmar que la calidad de los datos es insuficiente para un problema?

¿Cuánto cuesta una máquina de crioterapia?

Web Analytics