El Q-learning aproximado se puede aplicar para aprender una política de tratamiento óptima [matemática] \ pi ^ * = \ lbrace \ mu_1, \ dotsc, \ mu_n \ rbrace [/ math] de un conjunto de trayectorias observadas del paciente, donde la trayectoria de cada paciente es definido por una secuencia de acciones [matemáticas] A_j [/ matemáticas] y recompensas [matemáticas] Y_j [/ matemáticas].
En el caso simple de Q-learning de 2 etapas usando un modelo lineal con parámetros [math] \ beta_j, \ psi_j [/ math] para aproximar la función de valor de acción [math] Q [/ math], tenemos el modelo
[matemáticas] \ begin {align *} Q_j ^ {opt} (H_j, A_j, \ beta_j, \ psi_j) = \ beta_j ^ T H_ {j0} + (\ psi_j ^ T H_ {j1}) A_J \ end {align *}[/mates]
- ¿Cuál es el problema de algoritmo más difícil en LeetCode?
- ¿Cómo podemos encontrar el número de subcadenas palindrómicas en una cadena en tiempo lineal?
- Cómo crear un algoritmo que comprima el código binario
- ¿Cuál es el peor caso, el caso promedio y la mejor complejidad de tiempo de un algoritmo?
- ¿Cómo determina el algoritmo de alimentación de Quora el contenido a mostrar?
donde [math] H_j = (H_ {j0}, H_ {j1}) [/ math] es una descomposición del vector de historia en dos partes significativas (según el contexto médico), mientras que el vector de historia completo es simplemente la secuencia de acciones y observaciones hasta la etapa j, excluyendo la acción de la etapa j-ésima ([math] H_j = (O_1, A_1, \ dotsc, O_j) [/ math]).
Con este modelo, utilizamos el truco de programación dinámica estándar de comenzar en la última etapa. La regresión de la etapa 2 consiste en estimar los mejores parámetros de ajuste:
[matemáticas] \ begin {align *} (\ hat {\ beta_2}, \ hat {\ psi_2}) = \ text {argmin} _ {\ beta_2, \ psi_2} \ frac {1} {N} \ sum_ {i = 1} ^ N (Y_ {i2} – Q_2 ^ {opt} (H_ {i2}, A_ {i2}, \ beta_2, \ psi_2)) ^ 2 \ end {align *} [/ math]
Ahora use estos parámetros estimados de etapa 2 para obtener la pseudo recompensa de etapa 1
[matemáticas] \ begin {align *} \ hat {Y_ {i1}} = Y_ {i1} + \ text {max} _ {a_2} Q_2 ^ {opt} (H_ {i2}, a_ {i2}, \ hat {\ beta_2}, \ hat {\ psi_2}) \ end {align *} [/ math]
Tenga en cuenta que el máximo se toma en un intento de encontrar la recompensa óptima, ya que las muestras de entrenamiento pueden ser subóptimas.
Con esta recompensa, encuentre los parámetros de mejor ajuste de la etapa 1:
[matemáticas] \ begin {align *} (\ hat {\ beta_1}, \ hat {\ psi_1}) = \ text {argmin} _ {\ beta, \ psi} \ frac {1} {N} \ sum_ {i = 1} ^ N (\ hat {Y_ {i1}} – Q_1 ^ {opt} (H_ {i1}, A_ {i1}, \ beta_1, \ psi_1)) ^ 2 \ end {align *} [/ math]
Ahora que tenemos las funciones Q aproximadas de etapa 1 y etapa 2, la acción óptima en la etapa [matemáticas] j [/ matemáticas] es:
[matemáticas] \ begin {align *} \ mu_j ^ {opt} = \ text {argmax} _ {a} Q_j ^ {opt} (H_j, a, \ hat {\ beta_j}, \ hat {\ psi_j}) \ end {align *} [/ math]