Cómo aplicar las redes neuronales artificiales en control

Fuera de mi cabeza, puede ser, y se usa de muchas maneras. En mi opinión, la forma más útil de pensar en las ANN para el control es a través de la lente de aproximación de funciones. Los métodos difieren esencialmente en función de lo que realmente se aproxima.

  1. Aproximar la dinámica del modelo: Esto se llama estimación de caja negra. Esencialmente, el sistema está perturbado (utilizando acciones aleatorias) y se registran las respuestas a estas acciones. Con estos datos, se puede aprender y encapsular un predictor de caja negra para la dinámica en forma de ANN. Después de esto, cualquier estrategia de control basada en el modelo, como el control predictivo de modelo no lineal o el control de modo deslizante, se puede utilizar en este modelo de caja negra. Además, los modelos se pueden actualizar periódicamente utilizando mini lotes u otros enfoques recursivos.
  2. Aproximar las decisiones: esto puede ser útil en casos en los que solo hay unos pocos tipos de decisiones o acciones de control. Por ejemplo, en válvulas o interruptores, la acción de control podría simplemente activarse o desactivarse. En general, puede tener múltiples modos de control y el problema de control es esencialmente averiguar cuándo operar en qué modo. Los ANN se pueden aplicar aquí junto con algunos algoritmos expertos para descubrir los límites de clasificación entre los modos de control. Hay muchos documentos que usan SVM para esta aplicación, pero la gente también ha comenzado a mirar los ANN.
  3. Aproximar la función de valor: esto es particularmente popular y ampliamente utilizado en una serie de aplicaciones donde escribir un modelo o aproximar el modelo es muy difícil. Ejemplos comunes son cadenas de suministro, grandes plantas químicas o plantas de energía, y ciertas clases de robots. Aquí, una función de valor de estilo de botones se aprende directamente de manera no política. Esto se conoce por los nombres de programación dinámica aproximada (ADP), programación neurodinámica (NDP), aprendizaje por refuerzo (RL) o programación dinámica adaptativa. Todos los nombres significan casi lo mismo, la diferencia es en gran medida el dominio de la aplicación. ADP y NDP se utilizan en gran medida para controlar sistemas de “ingeniería”, mientras que RL se realiza principalmente en juegos de acción discretos como el ajedrez, la computadora y los juegos de Atari. En cuanto a la robótica, todos los ADP, RL y NDP significan exactamente lo mismo.

Todo este libro está dedicado a las redes neuronales aplicadas para tareas de decisión y control. Lo bueno del libro es que es accesible tanto para los teóricos del control interesados ​​en usar redes neuronales, como para los expertos en redes neuronales que desean aplicar ANN en el control. Programación neurodinámica