¿El aprendizaje por refuerzo es escalable?

Si bien puede haber muchos tipos diferentes de escalabilidad, analizaré dos tipos de escalabilidad en RL.

El primero es la escalabilidad en términos de número de estados y espacios de acción, a saber, escalabilidad a estados continuos y espacios de acción. La tendencia reciente en RL (o programación dinámica aproximada) ha sido sobre cómo aproximar mejor la función de valor utilizando varios métodos de aproximación de funciones (por ejemplo, métodos no paramétricos), para generalizar a un número infinito (como el espacio de estado continuo) de lo invisible estados. Creo que tenemos resultados bastante buenos en esta área, tanto en teoría como en práctica. Sin embargo, cuando se trata de espacios de acción continua, los métodos basados en valores se desmoronan ya que el paso de mejora de políticas requiere la optimización de la acción sobre una función de valor no convexo. La búsqueda de políticas es una forma de solucionar este problema, pero actualmente se limita a la optimización basada en gradientes.

El segundo es la escalabilidad en términos de número de puntos de datos, es decir, aprendizaje de refuerzo con big data. Teóricamente hablando, en métodos basados en valores aproximados, tenemos garantías de complejidad de muestra que dicen que la política aproximada se acercará a la política óptima cuando tengamos muchos datos. Hablando computacionalmente, realmente depende de cómo represente su función de valor: si está utilizando métodos no paramétricos, entonces no se escalaría muy bien con el número de puntos de datos. Si está utilizando 10 funciones de base radial, entonces se escalaría muy bien con el número de puntos de datos. También depende de si está haciendo un aprendizaje de refuerzo sin modelos o basado en modelos.

Si está más interesado en este tema, habrá un taller sobre big data para RL en AAAI 2014 [1].

[1] Taller AAAI-14 sobre toma de decisiones secuenciales con Big Data

Related Content

¿Cuál es el tamaño mínimo de corpus para entrenar incrustaciones de palabras?

¿Es estúpido cambiar de trabajo de programación en C a aprendizaje automático?

¿Cuál es la mejor manera de implementar mi algoritmo de reducción de dimensiones?

¿Cómo pudo la policía de Arizona llegar a una conclusión tan rápida que el auto Uber que se volcó no fue el culpable?

¿Cuáles son las mejores herramientas de última generación para la extracción de información en Python?

¿Cómo se les ocurre a las personas una topología apropiada para las redes neuronales (recurrentes)? Me gustaría conocer las diversas heurísticas que usan los investigadores, y tal vez algunos comentarios sobre qué tan bien funcionan y cuándo podrían fallar.

¿Cómo se puede usar Machine Learning para resolver el siguiente problema?

Escalable en términos de distribución de memoria y algunos de los cálculos entre núcleos, como la estimación de valor de acción de estado.

No necesariamente escalable escalable en términos de resolución de problemas más complejos, ya que el espacio de estados crece exponencialmente. Como a menudo en el aprendizaje automático, tenemos que ganar en el curso de la dimensionalidad.

Mark Horvath

Esta sigue siendo una pregunta abierta, creo.

Recientemente, el equipo de Deepmind de Google pudo modelar un sistema de aprendizaje de refuerzo profundo que aprende a jugar Atari Breakout simplemente usando las entradas visuales (píxeles).

Podría ser el comienzo de hacer que el aprendizaje por refuerzo sea escalable 🙂

Mark Horvath

More Interesting

¿Qué es una descripción general del aprendizaje de múltiples núcleos (MKL)?

¿Cómo podemos usar la red neuronal para la clasificación de texto?

Entre la agrupación y la clasificación, ¿cuál requiere más experiencia?

¿Qué tipo de aprendizaje automático debería usar Tinder para mejorar su número de coincidencias?

¿Por qué diverge un LSTM con activaciones ReLU?

¿Dónde aplicarías algoritmos de aprendizaje automático en tu vida diaria? ¿Por qué?

¿Los algoritmos subyacentes permiten a Shazam identificar una canción y Amazon Flow para identificar una imagen básicamente igual?

¿Qué es una explicación intuitiva de lo que es la dimensión VC?

¿Necesito tener grupos similares en una regresión de diferencia en diferencia?

¿Cómo se puede utilizar el aprendizaje automático para mejorar el software de gestión de proyectos?

¿Cuáles son los pros y los contras de las diferentes técnicas de factorización matricial: rango bajo, SVD y NMF? ¿Cuáles son algunos ejemplos prácticos de cada uno?

¿Cómo debo comenzar a aprender 'Machine Learning usando Java'?

Matemática Aplicada: ¿Cuáles son los diferentes métodos para pronosticar datos de series de tiempo?

¿Por qué TensorFlow tiene definiciones para muchas operaciones matemáticas?

¿Cuál es un buen tutorial breve para usar el aprendizaje profundo para tareas de reconocimiento de imágenes?

Web Analytics