La principal diferencia que distingue a la máquina de puntos Bayes de otros clasificadores bayesianos es la forma en que se entrenan los pesos.
Un clasificador bayesiano, por ejemplo, clasifica un punto de datos
[matemática] x [/ matemática] de acuerdo con [matemática] y = (w ^ Tx) [/ matemática] para el vector de parámetros [matemática] w [/ matemática] y [matemática] y = \ pm1 [/ matemática] en caso de Un clasificador lineal. Entonces, por ejemplo, si tenemos un conjunto de entrenamiento [math] D = \ {(x_1, y_1), \ dots, (x_n, y_n) \} [/ math] la probabilidad de [math] w [/ math] puede ser escrito como:
[matemáticas] p (Y | w, X) = \ prod_ip (y_i | x_i, w) = \ prod_i \ Psi (y_iw ^ T \ phi (x_i)) [/ math]
Donde [matemática] Y = \ {y_i \} ^ n_ {i = 1} [/ matemática], [matemática] X = \ {x_i \} ^ n_ {i = 1} [/ matemática], [matemática] \ Psi (\ cdot) [/ math] es la función de distribución acumulativa para un gaussiano y [math] \ phi ^ T (x_i) [/ math] permite que el límite de clasificación no sea lineal en las características originales.
- Cómo explicar el desempeño de un modelo predictivo a la gerencia que no conoce el aprendizaje automático
- ¿Por qué es importante aprender el descenso de gradiente en el aprendizaje automático?
- ¿Cuáles son algunos buenos métodos para el procesamiento previo de datos en el aprendizaje automático?
- ¿Aprender implementando un buen enfoque, o leyendo y usando marcos como TensorFlow?
- ¿Cómo se calcula el subconjunto de vocabulario en 'Al usar vocabulario de objetivos muy grandes para la traducción automática neuronal'?
Entonces, en el caso de una máquina Bayes Point, para entrenar los pesos dados una nueva entrada [math] x_ {n + 1} [/ math], la distribución predictiva se puede aproximar de la siguiente manera:
[matemáticas] p (y_ {n + 1} | x_ {n + 1}, Y) = \ int {p (y_ {n + 1} | x_ {n + 1}, w) p (w | Y) dw }
[/mates]
[matemáticas] \ aprox. {P (y_ {n + 1} | x_ {n + 1}, \ left \ langle w \ right \ rangle)} [/ math]
donde [matemáticas] \ left \ langle w \ right \ rangle [/ math] denota la media posterior de los pesos y también se llama Bayes Point.
Aquí pongo algunas referencias si está más interesado en BPM.
[1] Herbrich, R., Graepel, T. y Campbell, C. (1999). Máquina de puntos Bayes: Estimación del punto Bayes en el espacio del núcleo. Taller SVM de IJCAI (págs. 23 {27).
[2] Ralf Herbrich, Thore Graepel y Colin Campbell. 2001. Máquinas de punta Bayes. J. Mach. Aprender. Res. 1 (septiembre de 2001), 245-279.
[3] Brian Potetz (2011), Estimación del punto de Bayes utilizando problemas de mochila lineal, Actas de la 28ª Conferencia Internacional sobre Aprendizaje Automático (ICML-11), pp.257–264