Al observar la función de verosimilitud y la prueba de razón de verosimilitud en Wikipedia, vemos que la verosimilitud está relacionada con la probabilidad.
Digamos que tenemos un dado que puede o no ser justo y dos posibles modelos M1, M2 de cómo se comporta. El modelo M1 dice que el dado es justo y M2 dice que el dado no es justo, específicamente aterrizará en 6 la mitad del tiempo. Ahora tira los dados varias veces y cuenta cuántos seises hay.
Lanzar los dados sigue la distribución binomial con p = posibilidad de lanzar un seis, yn = número de veces que se lanza el dado. La probabilidad de obtener k sixes en n rollos dado un valor específico de n y p es
- ¿Cuál es la diferencia entre redes neuronales y de creencias?
- ¿Cómo 'Diagonal BiLSTM' calcula los estados diagonales a la vez y qué es diagonal?
- ¿Qué debo hacer para construir una carrera en Machine Learning? ¿Por dónde empiezo y cuáles son mis opciones?
- Cómo pensar que el 'problema de aprendizaje One Shot' se resolverá con Deep Neural Network
- ¿Qué piensa Yoshua Bengio sobre la idea de un algoritmo de aprendizaje único?
[matemáticas] P (k | n, p) = {n \ elegir k} p ^ {k} (1-p) ^ {{nk}}. [/ matemáticas]
Considere que los dos modelos M1 tienen p = 1/6, y M2 tiene p = 1/2. Vamos a encontrar los valores exactos para seis rollos.
. El | Número de seises
. El | 0 1 2 3 4 5 6
—————————————————————–
p (seis) = 1/6 | 0,33 0,40 0,21 0,06 0,01 0,00071 0,00002
p (seis) = 1/2 | 0.02 0.09 0.23 0.31 0.23 0.09 0.02
La probabilidad se define como L (M1 | k) = p (k | M1). Entonces, la probabilidad del modelo dado el resultado es solo la probabilidad de ese resultado dado un modelo específico.
Digamos que ahora tiramos los dados y encontramos que hay 4 seises. Podemos encontrar la probabilidad de cada modelo simplemente calculando las dos probabilidades.
La probabilidad del modelo 1 dado 3 sixes es 0.06 y la probabilidad del modelo 2 dado 3 sixes es 0.31. Puede tomar la razón L (M1 | k) / L (M2 | k) de estos valores para encontrar la razón de probabilidad. Es común tomar el registro de esta relación dando la relación de probabilidad de registro que tiene números más agradables. Puede usar estos valores en una distribución Chi-cuadrado para dar un valor p de si debe rechazar la hipótesis nula.
En nuestro caso, la probabilidad de cada modelo es aproximadamente la misma para k = 2, L (M1 | 2) = 0.21 y L (M2 | 2) = 0.23 la razón es 0.91, por lo que aceptaría M1, la hipótesis nula. Para k = 5 L (M1 | 5) = 0.00071 y L (M2 | 5) = 0.09 la relación es
0.008 y rechazaría la hipótesis nula. k = 3 yk = 4 son menos claros con relaciones 0.194 0.0435 respectivamente. Tendría que profundizar en las estadísticas para decir si debe aceptar rechazarlas.