¿Cuál es el significado de la investigación de OpenAI sobre estrategias de evolución y el hallazgo de que rivalizan con el desempeño del aprendizaje por refuerzo?

Este es el documento de referencia: https://arxiv.org/pdf/1703.03864…

Es un trabajo excelente para recuperar algunas viejas ideas y suposiciones de prueba de muchos investigadores de ML (es decir, los métodos sin derivados no escalan tan bien en comparación con la optimización basada en gradientes cuando los parámetros se hacen grandes). PERO, ahí es donde termina el significado.

Una nota para aclarar, dada la forma en que se hace la pregunta, y en parte por culpa del título engañoso del artículo, creo que muchas personas se engañan al pensar que este “nuevo” método es una alternativa a RL. No es así, en el documento todavía están usando una política de aprendizaje de refuerzo parametizada por una red neuronal, la única diferencia es cómo se optimiza la política (proponen estrategia de evolución, versus gradiente de política).

Otra nota importante es que, dentro del campo de RL, la optimización de políticas sin usar gradientes (denominada búsqueda de políticas) está bastante bien desarrollada y se usa con frecuencia, por ejemplo, la optimización de políticas de entropía cruzada (https://esc.fnwi.uva.nl / tesis / c …). Lo único que los investigadores extrañaron / entendieron mal es que, tradicionalmente, estos algoritmos se escalaron muy mal una vez que los parámetros de la política se hicieron grandes (piense en una red neuronal profunda con millones de parámetros).

Otro punto a tener en cuenta es que la estrategia evolutiva propuesta solo funcionaría en un entorno simulado (es decir, Atari, Mujoco, etc.), ya que requiere ejecutar muchos agentes paralelos para una iteración de actualización de parámetros. Además, dentro del documento, puede ver que la eficiencia de la muestra (cuántas muestras de experiencia para la política aprender) de este método no es mejor que el estado actual de la técnica, solo es más rápido en tiempo de computación absoluto (ya que no necesita hacer descenso en gradiente).

Personalmente, creo que el documento es más significativo en términos que destacan las inmensas capacidades paralelas de las GPU modernas, más que cualquier otra cosa.

Muestra que los mejores algoritmos probablemente te estén mirando a los ojos ahora. Podría ser que algunos viejos enfoques simples que se encuentran en algún libro antiguo podrían ser una mejor solución para resolver los problemas de IA más difíciles. La cuestión es volver a visitar algoritmos pasados, agregar algunos trucos y usar una máquina poderosa para escalarlos y ver qué sucede.

También muestra lo importante que es tener diferentes organizaciones de alto perfil trabajando para tratar de resolver la inteligencia. El resultado es que obtenemos diferentes alternativas, diferentes enfoques que también llegan a las portadas. OpenAI definitivamente se asegurará de impulsar más investigación en esta dirección porque es tan influyente como DeepMind.

Por lo tanto, no puedo esperar para ver lo que otros encontrarán usando estas estrategias evolutivas.

Espero que esto ayude.

Yann Lecun dio una refutación interesante a su publicación de blog en Twitter el sábado. Algunas imágenes guardadas:

More Interesting

¿Cómo utiliza Facebook feed el aprendizaje profundo?

¿Qué significa ser modelo pre-entrenado en CNN? ¿Ya están entrenados en esas clases particulares?

¿Cuáles son algunas aplicaciones del aprendizaje por refuerzo (o aprendizaje por refuerzo profundo) en finanzas y economía?

¿Cuál es la mejor manera de hacer reconocimiento / clasificación de múltiples objetos en tiempo real usando OpenCV y GPU (CUDA)?

¿Qué prueba estadística usar para cuantificar la similitud entre dos distribuciones cuando no son normales?

¿Cómo se puede utilizar el aprendizaje automático para mejorar el software de gestión de proyectos?

¿Por qué muchos estudios de investigación afirman que el aprendizaje profundo es una caja negra?

¿Cuáles son los prerrequisitos matemáticos para estudiar el aprendizaje automático?

Cómo obtener la distribución de probabilidad de clases con píxeles que son 0 o 255

¿Necesito implementar modelos de aprendizaje profundo desde cero?

¿Qué es una explicación intuitiva de los modelos de proceso gaussianos?

¿Qué medida de evaluación fuera de línea para los sistemas de recomendación se correlaciona mejor con los resultados de la prueba AB en línea?

¿Cómo nos beneficia exactamente el entrenamiento previo en los métodos de aprendizaje profundo?

¿Qué campos necesitan NLP (procesamiento del lenguaje natural) o técnicas de minería de texto?

Andrew Ng: ¿Por qué ya no es necesario entrenar capas a través de codificadores automáticos para Deep Learning?