我所在“基于强化学习的无模型自适应评价方法”方面取得最新成果

发布人：安剑奇发表时间：2020-05-17点击：次

针对复杂环境下的多智能体系统控制问题，我所开展了无模型的自适应评价设计研究，在基于自适应评价设计的分布式观测器设计与单个智能体基于监督神经动态规划的模型参考自适应控制等方面取得了丰硕成果，主要成果包括如下。

（1）设计了一种基于自适应评价设计的分布式最优观测器。针对具有非线性激活领导者的离散时间多智能体系统，由于系统动力学模型未知与系统通信网络约束，设计具有估计领导者状态的分布式最优观测器存在着巨大的挑战。为此，引入执行-评价网络框架，分别利用评价网络逼近最优值函数和执行网络逼近观测器的最优等价策略，构建分布式最优观测器，实现各智能体实时估计领导者的状态。通过收敛性分析，观测器全局估计误差、执行网络和评价网络权值估计误差都将一致最终有界。仿真实验结果表明，各跟随者智能体的估计状态都收敛至领导者轨迹的小的领域内。

Hao Fu, Xin Chen, and Min Wu. Distributed Optimal Observer Design of Networked Systems via Adaptive Critic Design. IEEE Transactions on Systems, Man, and Cybernetics: Systems. DOI: 10.1109/TSMC.2019.2962088.

说明: http://zqgl.cug.edu.cn:8080/_vsl/C6EADDC4C17939A57203B554E38436FC/A75FAFE5/76F3

图1 领导者状态与跟随者估计状态

说明: http://zqgl.cug.edu.cn:8080/_vsl/1D2D158C133EB48F8380C948F28DAAE1/B9C44099/5A47

图2 局部领域估计误差

（2）提出了一种监督神经动态规划方法。针对具有外界扰动的模型未知非线性系统，研究一种模型参考自适应控制方法同时实现系统的鲁棒性与自适应性。首先引入监督器到模型参考自适应评价学习控制中，创建了监督模型参考自适应评价学习控制总体结构；然后设计了监督网络和执行-评价网络，并分析了其收敛性；最后通过结合已有的滑模控制方法，给出了监督模型参考自适应评价学习控制的实现过程。仿真实验结果表明，所提的监督神经动态规划相对于现有模型参考自适应控制方法具有更高的控制精度。

Hao Fu, Xin Chen, Wei Wang, and Min Wu. MRAC for Unknown Discrete-Time Nonlinear Systems Based on Supervised Neural Dynamic Programming. Neurocomputing, 2020, 384: 130-141.

说明: http://zqgl.cug.edu.cn:8080/_vsl/A1A7DAF51B4A51B258B870C656028E2E/10FBDD7F/7EE2

图3 被控对象与参考模型的轨迹

说明: http://zqgl.cug.edu.cn:8080/_vsl/CD17CDC0A01FCB3CB11E9C77C5999671/32C2D8ED/602E

图4 模型参考跟踪误差曲线

说明: http://zqgl.cug.edu.cn:8080/_vsl/5871A2DDCB342A7057C84F82339ECCA6/32E1B9CB/4476

图5 采用现有方法的被控对象与参考模型轨迹

说明: http://zqgl.cug.edu.cn:8080/_vsl/D98EE5ECF0386E0F9EDF4ECCFC94734A/7FC3D7A4/63A9

图6 采用现有方法模型参考跟踪误差曲线

上述研究成果为实现复杂环境下的多智能体协调控制提供了一种有效方法，对进一步实现实际多智能体系统的协调控制提供理论基础。以上成果发表在国际期刊IEEE Transactions on Systems, Man, and Cybernetics: Systems和Neurocomputing。