¿Qué algoritmos de aprendizaje automático se usan hoy en medicina?

El Q-learning aproximado se puede aplicar para aprender una política de tratamiento óptima [matemática] \ pi ^ * = \ lbrace \ mu_1, \ dotsc, \ mu_n \ rbrace [/ math] de un conjunto de trayectorias observadas del paciente, donde la trayectoria de cada paciente es definido por una secuencia de acciones [matemáticas] A_j [/ matemáticas] y recompensas [matemáticas] Y_j [/ matemáticas].

En el caso simple de Q-learning de 2 etapas usando un modelo lineal con parámetros [math] \ beta_j, \ psi_j [/ math] para aproximar la función de valor de acción [math] Q [/ math], tenemos el modelo

[matemáticas] \ begin {align *} Q_j ^ {opt} (H_j, A_j, \ beta_j, \ psi_j) = \ beta_j ^ T H_ {j0} + (\ psi_j ^ T H_ {j1}) A_J \ end {align *}[/mates]

donde [math] H_j = (H_ {j0}, H_ {j1}) [/ math] es una descomposición del vector de historia en dos partes significativas (según el contexto médico), mientras que el vector de historia completo es simplemente la secuencia de acciones y observaciones hasta la etapa j, excluyendo la acción de la etapa j-ésima ([math] H_j = (O_1, A_1, \ dotsc, O_j) [/ math]).

Con este modelo, utilizamos el truco de programación dinámica estándar de comenzar en la última etapa. La regresión de la etapa 2 consiste en estimar los mejores parámetros de ajuste:

[matemáticas] \ begin {align *} (\ hat {\ beta_2}, \ hat {\ psi_2}) = \ text {argmin} _ {\ beta_2, \ psi_2} \ frac {1} {N} \ sum_ {i = 1} ^ N (Y_ {i2} – Q_2 ^ {opt} (H_ {i2}, A_ {i2}, \ beta_2, \ psi_2)) ^ 2 \ end {align *} [/ math]

Ahora use estos parámetros estimados de etapa 2 para obtener la pseudo recompensa de etapa 1

[matemáticas] \ begin {align *} \ hat {Y_ {i1}} = Y_ {i1} + \ text {max} _ {a_2} Q_2 ^ {opt} (H_ {i2}, a_ {i2}, \ hat {\ beta_2}, \ hat {\ psi_2}) \ end {align *} [/ math]

Tenga en cuenta que el máximo se toma en un intento de encontrar la recompensa óptima, ya que las muestras de entrenamiento pueden ser subóptimas.

Con esta recompensa, encuentre los parámetros de mejor ajuste de la etapa 1:

[matemáticas] \ begin {align *} (\ hat {\ beta_1}, \ hat {\ psi_1}) = \ text {argmin} _ {\ beta, \ psi} \ frac {1} {N} \ sum_ {i = 1} ^ N (\ hat {Y_ {i1}} – Q_1 ^ {opt} (H_ {i1}, A_ {i1}, \ beta_1, \ psi_1)) ^ 2 \ end {align *} [/ math]

Ahora que tenemos las funciones Q aproximadas de etapa 1 y etapa 2, la acción óptima en la etapa [matemáticas] j [/ matemáticas] es:

[matemáticas] \ begin {align *} \ mu_j ^ {opt} = \ text {argmax} _ {a} Q_j ^ {opt} (H_j, a, \ hat {\ beta_j}, \ hat {\ psi_j}) \ end {align *} [/ math]