¿Cuál es la naturaleza de la red neuronal multicapa en el aprendizaje Deep Q?

No estoy seguro de lo que está pidiendo la parte de “naturaleza”.

El MLP aquí se usa para representar la función Q, que mapea un par de acciones de estado en un valor. Este valor se calcula como la recompensa inmediata + recompensas futuras con descuento.

Puede usar una variedad de cosas para representar la función Q, con la más básica de una tabla tabular que realiza un seguimiento de los pares de acción de estado y su valor respectivo, a regresión lineal, regresión logística y aproximadores de funciones no lineales como redes neuronales.

El objetivo de la función Q es aprender una buena aproximación del valor esperado en cualquier estado realizando alguna acción, por lo tanto, esta asignación del par de acciones de estado al valor. El aproximador de funciones que utiliza para representar la función Q depende de la complejidad del problema y el tamaño de los posibles pares de acciones de estado. Cuando las posibilidades de los pares de acción de los estados son pequeñas (piense en un mundo de cuadrícula de 4 x 4), una tabla tabular o una función Q de regresión lineal es suficiente. Cuando los posibles pares de acción de estado son masivos (piense en jugar un videojuego mirando directamente los píxeles) y las relaciones son complejas, se pueden usar redes neuronales profundas como un NN convolucional para representar la función Q.

Inteligencia artificial: ¿Qué tan importante es el aprendizaje de transferencia / transferencia profunda?

¿El sobreajuste en un conjunto de datos implica que el modelo realmente puede aprender y generalizar sobre ese conjunto de datos, pero desafortunadamente demasiado entrenado?

¿Cómo se puede aplicar el aprendizaje automático para predecir el tiempo de entrega de un producto?

¿Cómo debe comenzar un principiante con la investigación en Machine Learning?

¿Cómo se hace la inferencia en una red neuronal con capas de normalización por lotes?

Cómo demostrar esta congruencia si p es un primo mayor que 3 de modo que 1 ^ 2 + 2 ^ 2 + 3 ^ 2 + 4 ^ 2… (p-1) ^ 2 = 0 (mod p)

Piense en redes neuronales convolucionales generalmente utilizadas para el reconocimiento de imágenes. Nuevamente alimentamos la red con los píxeles de un juego, pero predecimos movimientos en lugar de categorías de imágenes. Otra peculiaridad importante es la función de pérdida. También es diferente de una manera que trata de encontrar los mejores parámetros posibles para el estado actual y también la recompensa futura. De esta manera, incluimos actualizaciones radicales basadas en el estado actual y hacemos un seguimiento de la optimización después de la recompensa general del modelo.

Tuan PHAM

More Interesting

¿Cómo es trabajar en problemas de aprendizaje automático en un entorno empresarial?

¿Cómo puedo usar Gensim LDA para la clasificación binaria?

¿Qué es el mecanizado en caliente?

¿Cuáles son los principales puntos de regresión?

He estado aprendiendo la red neuronal de retroalimentación y la propagación hacia atrás durante 3 meses y todavía no puedo entenderlo, ¿qué debo hacer?

¿Cómo calcula Gensim.Word2vec la probabilidad de texto usando una puntuación de modelo?

¿Hay alguna diferencia entre el modelado de temas y el clúster?

¿Cuáles son las mejores startups que usan ciencia de datos y aprendizaje automático para el bien social?

¿Siri es una forma de aprendizaje automático?

En TensorFlow, ¿qué es una capa 'densa' y una 'abandonada'?