¿Cuál es la clave que el aprendizaje profundo contribuyó al aprendizaje de refuerzo (RL) que antes no era posible sin redes neuronales (ANN)?

Pienso en el aprendizaje por refuerzo como otra forma de obtener señales de supervisión para entrenar un modelo.

Por supuesto, las señales así obtenidas son de peor calidad que la supervisión directa, ya que se obtiene un puntaje impreciso para toda una secuencia / política ejecutada y, por lo tanto, la asignación de crédito se convierte en un obstáculo, pero no obstante es una señal de supervisión.

Dentro del paradigma de aprendizaje por refuerzo, puede decidir diseñar sus parámetros libres como desee (podemos imaginar que los vecinos más cercanos o la búsqueda de tablas equivalente también sea un modelo), y elegir el algoritmo de aprendizaje para ajustar esos parámetros, de nuevo bastante similar a aprendizaje supervisado convencional.

Organizar estos parámetros libres en jerarquías simplemente nos permitió aprender funciones más sofisticadas, y la propagación hacia atrás permitió absorber tantos datos de entrenamiento como arrojamos a los modelos: esto es algo que los modelos tradicionales (o los llamados modelos / enfoques libres de modelos como Q -aprendizaje) no pudieron hacerlo.

Los beneficios son exactamente los mismos que para el caso de aprendizaje supervisado, donde las máquinas kernel o los modelos basados ​​en refuerzo y embolsado no tuvieron éxito en digerir los datos de entrenamiento más allá de un límite.

El aprendizaje por refuerzo generalmente trata con pares de acción estatal. El agente intenta aprender cuál es la mejor acción para tomar en un estado particular. Lo hace manteniendo una tabla para almacenar las recompensas, etc. para cada par de acciones de estado.

Ahora considere un dominio de trabajo real con millones o posiblemente miles de millones de pares Estado-Acción. Es técnicamente imposible almacenar la tabla para todos ellos y aprender cada uno por separado.

Luego, las personas comenzaron a usar aproximaciones de funciones lineales para representar cada par de acción de estado por sus características y, por lo tanto, aprender la recompensa por las diferentes características en lugar de todos los estados. Esto requiere mucho conocimiento de dominio y el diseñador lo crea por separado para cada problema.

Aquí es donde las redes neuronales profundas entran en escena. Simplemente lanzamos toda la representación de estado (p. Ej., Datos de píxeles sin procesar de un videojuego que está aprendiendo a jugar) a un NN y aproxima las características por sí solo sin ningún conocimiento previo. Este es el camino real a la Inteligencia general donde RL aprende cualquier espacio de estado que se le otorgue sin ajustar los parámetros por un experto humano. Deep Mind utilizó Deep Q Networks para lograr el control de última generación para un conjunto de juegos de Atari.

More Interesting

¿Puedes hacer un chatbot patentado usando API.AI?

¿Qué adiciones o cambios harías a las tres leyes de la robótica?

¿Es la creciente mercantilización en el LD una seria preocupación para sus practicantes o aspirantes?

Mark Zuckerberg de Facebook es un ávido defensor del ingreso básico universal (UBI) ya que la IA pronto reemplazará a la mayoría de los trabajadores (incluso los médicos). A partir de ahí, ¿nos volveremos más pobres?

¿Cómo impactará la inteligencia artificial en la industria de TI?

¿Qué es lo importante de un algoritmo de aprendizaje profundo exitoso?

¿Cuáles son los éxitos recientes en IA además del aprendizaje profundo?

¿Dónde debo comenzar a desarrollar Chatbot desde el principio?

¿Necesito aprender codificación para trabajar en IA? Además de la codificación, ¿hay otras áreas dentro del campo que uno pueda explorar sin ser necesariamente un codificador?

¿Cómo podría la inteligencia artificial mejorar la tecnología agrícola actual?

¿Qué tipo de estadísticas usan los programadores de juegos de IA?

¿Por qué el entrenamiento con la unidad softmax en redes neuronales es manejable si la función de partición es intratable?

¿Cómo podría justificarse Ray Kurzweil si la singularidad no ocurre en 2029?

¿Quiero crear una herramienta de reconocimiento de escritura a mano con red neuronal usando MATLAB?

¿Qué hacen mejor las redes neuronales artificiales alimentadas completamente conectadas que las redes neuronales de convolución y viceversa?