¿Podemos obtener un intervalo de confianza para la salida de un clasificador en el aprendizaje supervisado?

Algunos pensamientos:

  1. Un enfoque frecuente: para tener una idea de cuánta inestabilidad hay en sus parámetros estimados, puede hacer un procedimiento de tipo bootstrap. Se ajusta a varios modelos, cada vez construyendo a partir de un subconjunto de datos generado aleatoriamente. Lo que obtendrá sería una distribución empírica de la producción logística (es decir, para cada punto de datos a evaluar), y puede tomar percentiles de esta colección para obtener intervalos de confianza.
  2. Un enfoque bayesiano: puede comenzar poniendo algo anterior en sus coeficientes de regresión, idealmente (?) Uno que intente no ser informativo. Después de ajustar un modelo, tendrá una distribución posterior (¡conjunta!) Para sus coeficientes. Al tomar muestras de esta distribución conjunta y usar el vector beta muestreado, puede obtener, nuevamente, una distribución empírica de probabilidades ajustadas para cada punto de datos. Hasta donde yo sé, esto será computacionalmente complicado, ya que no habrá una solución de forma cerrada de sus distribuciones beta posteriores.
  3. [Algo que está mal] No tome la salida de probabilidad de su modelo y luego intente calcular los intervalos de confianza utilizando la fórmula estándar de Bernoulli (es decir, sqrt (p (1-p) / n)). Esto supone tácitamente que su modelo es completamente correcto.
  4. [Otra cosa equivocada]. Tanto 1 como 2 suponen que el modelo correcto es logístico. Intentan caracterizar la dependencia de las salidas de la muestra finita de datos de entrada. Podrían ser demasiado optimistas si un modelo logístico no es correcto.

Puede aprender la distribución de la misma manera que aprende las expectativas.

Suponga que sus variables de entrada son [matemática] X_1 [/ matemática],…, [matemática] X_n [/ matemática], mientras que su variable de salida es [matemática] Y [/ matemática].

Aprenda otra función que recibe [matemática] x_1 [/ matemática],…, [matemática] x_n [/ matemática] y [matemática] y [/ matemática], y predice la probabilidad

Prob (Y> y | [matemática] X_1 = x_1 [/ matemática],…, [matemática] X_n = x_n) [/ matemática]

Alternativamente, suponiendo que la distribución es normal para cada [matemática] x_1 [/ matemática],…, [matemática] x_n [/ matemática], puede aprender a predecir la desviación estándar (dada [matemática] x_1 [/ matemática],…, [matemática] x_n [/ matemática], predice [matemática] (Y- \ hat y) ^ 2 [/ matemática], donde Y es la respuesta correcta y [matemática] \ hat y [/ matemática] es su predicción). Para aprenderlo, use predicciones con validación cruzada.