¿Podemos obtener un intervalo de confianza para la salida de un clasificador en el aprendizaje supervisado?

Algunos pensamientos:

Un enfoque frecuente: para tener una idea de cuánta inestabilidad hay en sus parámetros estimados, puede hacer un procedimiento de tipo bootstrap. Se ajusta a varios modelos, cada vez construyendo a partir de un subconjunto de datos generado aleatoriamente. Lo que obtendrá sería una distribución empírica de la producción logística (es decir, para cada punto de datos a evaluar), y puede tomar percentiles de esta colección para obtener intervalos de confianza.
Un enfoque bayesiano: puede comenzar poniendo algo anterior en sus coeficientes de regresión, idealmente (?) Uno que intente no ser informativo. Después de ajustar un modelo, tendrá una distribución posterior (¡conjunta!) Para sus coeficientes. Al tomar muestras de esta distribución conjunta y usar el vector beta muestreado, puede obtener, nuevamente, una distribución empírica de probabilidades ajustadas para cada punto de datos. Hasta donde yo sé, esto será computacionalmente complicado, ya que no habrá una solución de forma cerrada de sus distribuciones beta posteriores.
[Algo que está mal] No tome la salida de probabilidad de su modelo y luego intente calcular los intervalos de confianza utilizando la fórmula estándar de Bernoulli (es decir, sqrt (p (1-p) / n)). Esto supone tácitamente que su modelo es completamente correcto.
[Otra cosa equivocada]. Tanto 1 como 2 suponen que el modelo correcto es logístico. Intentan caracterizar la dependencia de las salidas de la muestra finita de datos de entrada. Podrían ser demasiado optimistas si un modelo logístico no es correcto.

¿Cuál es la diferencia entre el análisis de opinión y el análisis de tonalidad?

¿Por qué la deserción puede mejorar el problema de sobreajuste en redes neuronales profundas?

¿Cómo se explica el algoritmo de propagación de creencias en las redes bayesianas?

¿Qué lenguaje es mejor usar para el aprendizaje automático (R o Python)?

¿Son útiles los procesos jerárquicos de Dirichlet en la práctica?

Aprendizaje automático: al construir un modelo de regresión lineal, ¿cómo decido entre variar el grado del polinomio y variar el parámetro de regularización?

Puede aprender la distribución de la misma manera que aprende las expectativas.

Suponga que sus variables de entrada son [matemática] X_1 [/ matemática],…, [matemática] X_n [/ matemática], mientras que su variable de salida es [matemática] Y [/ matemática].

Aprenda otra función que recibe [matemática] x_1 [/ matemática],…, [matemática] x_n [/ matemática] y [matemática] y [/ matemática], y predice la probabilidad

Prob (Y> y | [matemática] X_1 = x_1 [/ matemática],…, [matemática] X_n = x_n) [/ matemática]

Alternativamente, suponiendo que la distribución es normal para cada [matemática] x_1 [/ matemática],…, [matemática] x_n [/ matemática], puede aprender a predecir la desviación estándar (dada [matemática] x_1 [/ matemática],…, [matemática] x_n [/ matemática], predice [matemática] (Y- \ hat y) ^ 2 [/ matemática], donde Y es la respuesta correcta y [matemática] \ hat y [/ matemática] es su predicción). Para aprenderlo, use predicciones con validación cruzada.

Alberto Bietti

More Interesting

¿Es estúpido cambiar de trabajo de programación en C a aprendizaje automático?

¿Qué es el 'aprendizaje automático de crowdsourcing'?

¿Qué tamaño debería tener mi bosque aleatorio aproximadamente si tengo 17 variables y medio millón de registros?

¿Vale la pena obtener un doctorado en aprendizaje automático y procesamiento del lenguaje natural?

¿Qué es un buen libro que discute los principios de la ingeniería de características, en el contexto del aprendizaje automático?

¿Cómo se pueden entender intuitivamente las dimensiones de las entradas LSTM?

¿Cuál es la diferencia entre Bayes ingenuo y la entropía máxima?

¿Por qué el gradiente en el punto mínimo no es igual a 0?

¿Existe algún modelo de aprendizaje profundo o algún otro método que ingrese como una colección de documentos y pueda predecir la probabilidad de un nuevo documento?

¿Las redes neuronales artificiales pueden modelar interacciones multiplicativas?