Aquí hay un buen resumen del documento de aprendizaje profundo (NIPS 16) a través de [correo electrónico protegido] :
Redes de iteración de valor • r / MachineLearning
“Su contribución es ofrecer una nueva forma de pensar sobre VI en el contexto de redes profundas. Muestra cómo se puede secuestrar la arquitectura CNN para implementar el operador de optimización de Bellman, y cómo se puede usar la señal de backprop para aprender un modelo determinista del MDP subyacente. A corto plazo, creo que el documento atraerá a muchos investigadores profundos que de otra manera serían reacios a tratar explícitamente con MDP / RL. Como señalan los autores, la red VI también se puede usar como una política por sí sola, y podría combinarse con, digamos, un gradiente de política determinista. ”
- ¿Cuál es más importante de los tres, es decir, informática ubicua, informática distribuida y procesamiento de lenguaje natural, en el mundo de hoy?
- ¿Qué es una comprensión intuitiva del análisis factorial?
- ¿Quiénes son los profesores que trabajan en biología computacional utilizando el aprendizaje automático inspirado en bio como las redes neuronales?
- ¿Cuál es la intuición para usar tocones de decisión en el aprendizaje automático?
- Al diseñar nuevas arquitecturas de aprendizaje profundo, ¿cómo se determina si la arquitectura es mala o si la optimización del modelo es el problema?
Y aquí hay una introducción rápida a la iteración de valor (VI) en el aprendizaje por refuerzo: http://uhaweb.hartford.edu/comps…