Aquí hay una manera rápida y sucia:
Para los datos de entrenamiento, mire las probabilidades de registro resultantes para los datos de entrenamiento en cada clase después de entrenar el clasificador Naive Bayes. Elija un% arbitrario de los datos (digamos 95%) para llamar “representante” de la clase, para ignorar los valores atípicos en los datos de entrenamiento. Para cada clase, clasifique las probabilidades de registro de los puntos de datos correspondientes y elija un umbral tal que el 95% de los datos tenga una probabilidad de registro mayor que ese umbral. Para determinar si los datos de la prueba son diferentes de los datos de entrenamiento de acuerdo con el clasificador NB, determine la probabilidad de registro para cada clase en el punto de datos de la prueba. Si cada log-verosimilitud está por debajo del umbral correspondiente, entonces es probable que el punto de datos no esté bien representado por el conjunto de entrenamiento.
Una advertencia es que el clasificador NB supone que cada característica es condicionalmente independiente, por lo que este método puede no generalizarse bien a características altamente correlacionadas.
- ¿Cómo se calcula el punto de ruptura de un algoritmo de aprendizaje?
- ¿Vale la pena seguir una maestría en aprendizaje automático de NCSU? ¿Es una mejor opción solo por el triángulo de investigación?
- ¿Cuáles son algunos proyectos interesantes del último año relacionados con el aprendizaje automático?
- ¿Cuál es el uso de una capa de disminución de resolución en una red neuronal convolucional (CNN)?
- ¿Cuáles son las principales diferencias entre la regresión logística, la red neuronal y las SVM?
Los métodos más sofisticados incluyen tomar un KDE no paramétrico de las probabilidades de registro resultantes para cada clase y calcular la probabilidad de que el punto de datos de prueba provenga de la misma distribución que los datos de entrenamiento de esto, o buscar valores atípicos en el nivel de las características individuales.
¿Cuál es tu aplicación? Es probable que el mejor método para usar sea dependiente de la aplicación