¿Cuáles fueron las principales conclusiones del tutorial de Richard Sutton sobre el aprendizaje por refuerzo en NIPS 2015?

Estas son algunas de las conclusiones del tutorial de RL.

– El aprendizaje por refuerzo (RL) consiste en encontrar la mejor política que maximice la recompensa.

– Un agente aprende interactuando con el entorno.

– Q Learning es el algoritmo de aprendizaje y se refieren al aprendizaje como “La danza de la política y el valor”

– RL no se queda atascado en los óptimos locales.

– El mundo real es demasiado grande para considerar todos los estados potenciales, por lo que usamos la aproximación de funciones, que a menudo funciona bien, pero hay un ejemplo de contador simple donde los parámetros divergen hasta el infinito.

– Hay una “tríada mortal”

En el siguiente enlace, hay un muy buen resumen de algunos de los tutoriales en el primer día (incluido el tutorial RL).

http://codinginparadise.org/eboo…

Aprendizaje automáticoAprendizaje por refuerzo

Related Content

¿Qué es la precisión?

Cómo usar la prueba T de Student para la selección de funciones

¿Existe una brecha entre las estadísticas y las comunidades de aprendizaje automático? Si es así, ¿por qué?

Investigadores de aprendizaje automático, ¿algún día los robots nos matarán a todos?

¿Existen algoritmos que hacen lo contrario de la detección de anomalías, por ejemplo, señalan ocurrencias regulares en datos ruidosos?

¿Cuáles son los dominios en los que las técnicas de aprendizaje profundo podrían aplicarse además del procesamiento de la visión por computadora y el lenguaje / habla?

¿Cuáles son los beneficios de IoT?

More Interesting

Dada una lista de codificadores y sus respectivos conjuntos de fragmentos de código, ¿es posible inferir a partir de un fragmento de código nuevo dado el codificador original?

¿Cuáles son algunas trampas comunes al estudiar la clasificación en el aprendizaje automático?

Cómo extender una red neuronal profunda que se capacitó en la inclusión de palabras en inglés como entrada en una tarea de clasificación a multilingüe

¿Por qué se usan CNN para PNL?

Cómo hacer aprendizaje automático usando scikit-learn para un archivo CSV que tiene muchas columnas de texto

En términos simples, ¿cómo funciona Gibbs Sampling?

¿El curso de aprendizaje automático que el profesor Andrew Ng ofrece en Coursera me será útil como desarrollador de software profesional para resolver problemas de aprendizaje automático del mundo real?

¿Cómo verifican las personas los resultados de un análisis de causa raíz en la minería de datos? ¿Hay algún conjunto de datos público disponible que especifique cuáles son las causas reales del problema?

¿Cómo difiere un sistema de clasificación artificial de una clasificación de sistema natural?

Cómo decidir el tema de mi interés de investigación para obtener un doctorado en visión artificial y aprendizaje automático

¿Cómo manejo tanto la programación como la investigación en el área de redes neuronales y redes neuronales profundas?

¿Hay algún hallazgo reciente que indique que la ascendencia cerebral ocurre como un esquema de error de propagación inversa?

¿Cuál es una explicación intuitiva de un ingenuo clasificador de Bayes?

Quiero aprender Python para el análisis de datos y el aprendizaje automático. ¿De dónde debería comenzar?

¿Qué es la agrupación?

Web Analytics