No estoy seguro de lo que está pidiendo la parte de “naturaleza”.
El MLP aquí se usa para representar la función Q, que mapea un par de acciones de estado en un valor. Este valor se calcula como la recompensa inmediata + recompensas futuras con descuento.
Puede usar una variedad de cosas para representar la función Q, con la más básica de una tabla tabular que realiza un seguimiento de los pares de acción de estado y su valor respectivo, a regresión lineal, regresión logística y aproximadores de funciones no lineales como redes neuronales.
- ¿Qué sistemas IDS, IPS en Network Security hoy en día son los más adaptables para aprender nuevas amenazas? ¿Hay algún tipo de punto de referencia estándar para medir esto?
- ¿Cuál es el mejor algoritmo de agrupamiento adaptativo k-means (que k se elige automáticamente)?
- ¿Cómo verifican las personas los resultados de un análisis de causa raíz en la minería de datos? ¿Hay algún conjunto de datos público disponible que especifique cuáles son las causas reales del problema?
- ¿Qué núcleo (para los métodos de núcleo en el aprendizaje automático) es menos sensible a la alta dimensión: cauchy, gaussiana o laplaciana?
- En el aprendizaje profundo, ¿son el "aprendizaje incremental" y el "aprendizaje de transferencia" el mismo enfoque?
El objetivo de la función Q es aprender una buena aproximación del valor esperado en cualquier estado realizando alguna acción, por lo tanto, esta asignación del par de acciones de estado al valor. El aproximador de funciones que utiliza para representar la función Q depende de la complejidad del problema y el tamaño de los posibles pares de acciones de estado. Cuando las posibilidades de los pares de acción de los estados son pequeñas (piense en un mundo de cuadrícula de 4 x 4), una tabla tabular o una función Q de regresión lineal es suficiente. Cuando los posibles pares de acción de estado son masivos (piense en jugar un videojuego mirando directamente los píxeles) y las relaciones son complejas, se pueden usar redes neuronales profundas como un NN convolucional para representar la función Q.