¿Cuál es la diferencia entre gradiente de política determinista y gradiente de política estocástica?

En el gradiente de política estocástica, las acciones se extraen de una distribución parametrizada por su política. Por ejemplo, el par motor de su robot puede extraerse de una distribución Normal con media [matemática] \ mu [/ matemática] y desviación [matemática] \ sigma [/ matemática]. Donde su política predecirá [math] \ mu [/ math] y [math] \ sigma [/ math]. Cuando extrae de esta distribución y evalúa su política, puede acercar su media a las muestras que condujeron a una mayor recompensa y más lejos de las muestras que condujeron a una menor recompensa, y reducir su desviación a medida que tenga más confianza.

Cuando reduce la varianza a 0, obtenemos una política que es determinista. En el gradiente de política determinista, tomamos directamente los gradientes de [math] \ mu [/ math].

En el caso estocástico, el gradiente de políticas se integra sobre los espacios de estado y de acción, mientras que en el caso determinista solo se integra sobre el espacio de estado. Como resultado, calcular el gradiente de política estocástica puede requerir más muestras, especialmente si el espacio de acción tiene muchas dimensiones.

AprendizajeAprendizaje por refuerzoautomáticoEstadísticaOptimización matemática

Related Content

¿Qué significa la siguiente imagen de un gráfico en Theano?

¿Puedo hacer una competencia de kaggle con un archivo csv de entrenamiento de 0.5 Gb en mi computadora de 8 Gb y tener éxito?

¿Dónde se pueden encontrar videos de Udacity Machine Learning Nanodegree gratis?

¿Cuál es su opinión sobre los rastros de elegibilidad para el aprendizaje de la diferencia temporal? ¿Es solo una asignación de crédito o un truco de aceleración?

¿Cuáles son algunas de las limitaciones o inconvenientes de las redes neuronales convolucionales?

¿Es aconsejable automatizar el trabajo del presidente de la Fed con un software de aprendizaje automático dado que sus decisiones se basan principalmente en datos?

Cómo actualizarse con nuevas tecnologías o inventos en todo el mundo

More Interesting

Cómo evaluar los mejores resultados posibles para un clasificador SVM

¿Cuál es el papel de la Inteligencia Artificial en las redes sociales?

¿Debo comenzar a aprender Python y el aprendizaje automático al mismo tiempo?

Cómo optimizar una red neuronal convolucional para hacer una clasificación de imágenes

Cómo obtener una pasantía de investigación en aprendizaje automático o inteligencia artificial en una universidad de los EE. UU., Ser indio trabajando en una startup

¿El rendimiento de la regresión logística se ve afectado negativamente por características altamente correlacionadas?

¿Es Siraj Raval el Neil De Grasse Tyson del aprendizaje profundo?

PNL: ¿Cuáles son las aplicaciones del análisis en el procesamiento del lenguaje natural?

Cómo crear un conjunto de datos a partir de imágenes

¿Cómo se puede visualizar el aprendizaje profundo y, por lo tanto, convertir las capas y los pesos ocultos en algo comprensible para un laico sin mucho trabajo?

Cómo implementar SVM yo mismo

¿Cuál es la mejor manera para que un principiante completo aprenda el aprendizaje automático?

¿Qué significa la implementación del algoritmo de aprendizaje automático distribuido?

¿Cuáles son las mejores marcas de CPU y GPU para el aprendizaje automático?

¿Qué tan útil es el aprendizaje profundo para problemas P> N?

Web Analytics