¿Cuál es la diferencia entre gradiente de política determinista y gradiente de política estocástica?

En el gradiente de política estocástica, las acciones se extraen de una distribución parametrizada por su política. Por ejemplo, el par motor de su robot puede extraerse de una distribución Normal con media [matemática] \ mu [/ matemática] y desviación [matemática] \ sigma [/ matemática]. Donde su política predecirá [math] \ mu [/ math] y [math] \ sigma [/ math]. Cuando extrae de esta distribución y evalúa su política, puede acercar su media a las muestras que condujeron a una mayor recompensa y más lejos de las muestras que condujeron a una menor recompensa, y reducir su desviación a medida que tenga más confianza.

Cuando reduce la varianza a 0, obtenemos una política que es determinista. En el gradiente de política determinista, tomamos directamente los gradientes de [math] \ mu [/ math].

En el caso estocástico, el gradiente de políticas se integra sobre los espacios de estado y de acción, mientras que en el caso determinista solo se integra sobre el espacio de estado. Como resultado, calcular el gradiente de política estocástica puede requerir más muestras, especialmente si el espacio de acción tiene muchas dimensiones.