Este es el documento de referencia: https://arxiv.org/pdf/1703.03864…
Es un trabajo excelente para recuperar algunas viejas ideas y suposiciones de prueba de muchos investigadores de ML (es decir, los métodos sin derivados no escalan tan bien en comparación con la optimización basada en gradientes cuando los parámetros se hacen grandes). PERO, ahí es donde termina el significado.
Una nota para aclarar, dada la forma en que se hace la pregunta, y en parte por culpa del título engañoso del artículo, creo que muchas personas se engañan al pensar que este “nuevo” método es una alternativa a RL. No es así, en el documento todavía están usando una política de aprendizaje de refuerzo parametizada por una red neuronal, la única diferencia es cómo se optimiza la política (proponen estrategia de evolución, versus gradiente de política).
- ¿Cómo podemos usar Tensorflow para problemas de clasificación?
- ¿Cuáles son los mejores recursos disponibles en línea para aprender a pensar en diseño?
- ¿Qué opinas del TensorFlow Eager en comparación con Pytorch?
- ¿Quién ha explorado las aplicaciones del modelo Word2vec en datos que no sean lenguajes naturales?
- ¿Qué podríamos hacer con Asimo si la computadora dentro estuviera con el poder de la caja de aprendizaje profundo Nvidia DGX-1?
Otra nota importante es que, dentro del campo de RL, la optimización de políticas sin usar gradientes (denominada búsqueda de políticas) está bastante bien desarrollada y se usa con frecuencia, por ejemplo, la optimización de políticas de entropía cruzada (https://esc.fnwi.uva.nl / tesis / c …). Lo único que los investigadores extrañaron / entendieron mal es que, tradicionalmente, estos algoritmos se escalaron muy mal una vez que los parámetros de la política se hicieron grandes (piense en una red neuronal profunda con millones de parámetros).
Otro punto a tener en cuenta es que la estrategia evolutiva propuesta solo funcionaría en un entorno simulado (es decir, Atari, Mujoco, etc.), ya que requiere ejecutar muchos agentes paralelos para una iteración de actualización de parámetros. Además, dentro del documento, puede ver que la eficiencia de la muestra (cuántas muestras de experiencia para la política aprender) de este método no es mejor que el estado actual de la técnica, solo es más rápido en tiempo de computación absoluto (ya que no necesita hacer descenso en gradiente).
Personalmente, creo que el documento es más significativo en términos que destacan las inmensas capacidades paralelas de las GPU modernas, más que cualquier otra cosa.