SCI论文(www.lunwensci.com)
摘要:介绍了目前有关机器人强化学习和多任务学习的方法和成果。针对现有的强化学习算法在现实环境中采样效率低下和难以进行多任务学习的问题。提出一种基于渐进式神经网络的强化学习(PNNRL)算法。先根据现实原始图像,创建一个包含了现实中重要信息的高效模拟环境,在模拟环境中训练得到一个策略模型,然后基于渐进式神经网络,将模拟环境中训练得到的策略迁移到现实环境中,实现在加快模型收敛速度和数据采样效率的同时,还实现仿真域到现实域的策略迁移和避免了因为迁移学习造成的灾难性遗忘。结合机器人作业任务实验结果显示,PNNRL算法可以有效解决强化学习采样效率低的问题,并且利用渐进式神经网络的特性还可以做到多任务学习。最后对机器人多任务学习的研究前景做了展望。
关键词:强化学习;渐进式神经网络;灾难性遗忘;策略迁移;多任务学习
Multi Task Reinforcement Learning Algorithm Based On Progressive Neural Network
Su Mengtao,Zeng Bi
(School of Computer Science and Technology,Guangdong University of Technology,Guangzhou 510006,China)
Abstract:The current methods and results of reinforcement learning and multi-task learning in robotics were introduced.Aiming at the problems that existing reinforcement learning algorithms have low sampling efficiency in real-world environments and are difficult to perform multi-task learning,a progressive neural network reinforcement learning(PNNRL)algorithm was proposed.The algorithm firstly created an efficient simulation environment containing important information in reality based on the original real images,trained a strategy model in the simulation environment,and then transfered the strategy trained in the simulation environment to reality based on the progressive neural network.In the environment,while accelerating the model convergence speed and data sampling efficiency,it also realized the policy transfer from the simulation domain to the real domain and avoided catastrophic forgetting caused by transfer learning.Combined with the experimental results of robotic tasks,the algorithm can effectively solve the problem of low sampling efficiency in reinforcement learning,and it can also achieve multi-task learning by using the characteristics of progressive neural networks.Finally,the research prospects of multi-task learning in robots are prospected.
Key words:progressive neural network;reinforcement learning;catastrophic forgetting;policy transfer;multi-task learning
0引言
随着人工智能的发展,目前的国内外学者对智能机器人自主决策和多任务学习开展了广泛的研究。由于深度学习极强的特征学习能力,是实现机器学习的重要算法,文献[1-2]利用了深度学习的方法,设计了一个机器人的端到端控制模型。这类算法的代表是指导策略搜索算法[3],这种算法由控制器和监督器组成,通过两个模块的协调控制机器人进行任务策略搜索[4],但是这类算法的缺点是过于依赖传统控制算法。
文献[5-7]采用了强化学习,通过与环境的交互使机器人在“试错”中学习。但是强化学习的采样效率太低,训练周期太长。所以后来的研究集中于研究使用模拟环境仿真训练强化学习模型[8],然后通过策略迁移将模型适用于现实环境中。这个研究领域属于仿真训练到现实演绎(Simulation toreality,STR)[9]。
在STR研究领域中,有比较典型的策略迁移方法,如文献[10-12]通过迁移学习的领域自适应(Domain Adaption,DA)方法,将模拟环境和现实环境的特征映射到同一个特征空间,使源域的模型适用于目标域。Ru⁃su A A[13]证明了渐进式神经网络可以用于强化学习中。Christiano P[14]提出了一种逆转移概率矩阵,直接将模型迁移到现实环境中应用。文献[15-16]采用领域随机化的方式使模拟环境中的模型能够泛化到现实环境中。此外还有元学习(Meta-Learning)领域相关的研究,文献[17-20]就是结合元学习和模仿学习实现机器人的自主学习。
多任务学习也属于迁移学习的范畴,比较典型的有任务迁移连接网络[21](Task Transfer Connection Net⁃work,TTCN),这种方法将一个阈值参数添加在多个任务同一层网络层之间实现任务间的知识共享,提高了多任务的泛化性能。还有基于深度学习的多任务学习方法,如深度非对称多任务特征学习方法[22](Deep Asymmetric Multitask Feature Learning,DAMTFL),这种方法主要是通过任务间参数正则化解决负迁移的问题。目前多任务学习的研究还主要在基于监督学习模型的研究。
目前的策略迁移研究主要注重于机器人的单任务决策模型,很少有多任务强化学习模型,而基于传统的策略模型或者基于强化学习的方法效率过低[23-24],而使用模拟器则需要极大的硬件成本,本文研究基于渐进式神经网络的方法,根据现实的原始图像建立包含重要信息的模拟环境,使得智能体能够在模拟环境中仿真训练提高强化学习采样效率,同时利用渐进式神经网络将在模拟环境训练得到的最优策略作为现实中策略模型的先验知识,在迁移策略的同时还能防止神经网络的灾难性遗忘,使机器人实现多任务学习。实验和工程实践证明,本方法能够为机器人自主持续学习的应用提供了思路。具有工程应用价值和现实意义。(1)提出了一种基于渐进式神经网络的多任务强化学习方法(Progressive Neu⁃ral Network Reinforcement Learning,PNNRL),这种方法会通过现实环境的状态信息构建高效的模拟环境,使在模拟环境训练得到的最优策略模型应用到现实环境,并避免在策略迁移中因为在目标域上进行模型微调造成的灾难性遗忘。(2)基于渐进式神经网络,通过与基准方法实验对比验证机器人多任务学习和策略迁移的性能。
1问题定义
1.1强化学习
强化学习是基于马尔可夫决策过程(Markov Deci⁃sion Process,MDP)的一种学习范式。MDP主要用一个五元组<S,A,R,P,γ>表示[25]。其中:S为智能体交互的环境状态集合;A为智能体能够采取的动作集合;P为在当前状态采取动作后的转移概率,转移概率函数如式(1)表示;R为奖励回报,即智能体基于当前状态st采取动作at后,在t+1时刻获得的期望奖励,如式(2)表示;
γ为折扣因子,表示将来的奖励在当前时刻的价值比例,γ∈[0,1]。
在MDP中,价值函数是状态价值函数vπ(s)和动作价值函数qπ(s,a),状态价值函数表示在策略π下当前时刻st所获得的期望回报,如下式所示:
动作价值函数则表示在策略策略π下,状态st,采取动作at的期望回报,如下式所示:
1.2渐进式神经网络
渐进式神经网络主要解决两个问题,一个是传统迁移学习对模型进行微调以适应新的目标任务时,难以选择选择训练好的任务模型初始化后续的模型。另一个问题是迁移在目标域的模型虽然能够在目标域有较好的性能表现,但是破坏了之前学习到的参数,丢失了之前学习的性能,这也是难以实现持续学习的原因。
渐进式神经网络的解决思路是将之前训练的每个网络保存,并且固定参数。每当有新任务的时候,就重新实例化生成一个新网络。并且利用旧网络的知识训练新任务的网络,将旧任务的网络每一层的输出和当前任务的每一层输出合并。如图1所示。
每一层的输出可以通过线性加和的方式聚合,如下
2模型训练和策略迁移流程
2.1模型训练和策略迁移整体设计
仿真训练的目的是为了大幅提高强化学习模型的采样效率,并减少因为现实环境造成的代价。如图2所示,首先通过现实环境的状态信息构建好模拟环境,然后将策略的训练分为两个阶段。第一个阶段是在模拟环境中仿真训练,当模型收敛后,就将第一个训练阶段的策略模型进行参数固定,然后开始第二阶段训练,第二阶段需要再实例化一个神经网络,并将之前第一阶段的每一层的输出和当前模型的每一层输出聚合合并。这样可以获得第一阶段网络中对应层级的能力,但是直接聚合合并还不能得到一个理想的性能,于是还需要逐步对第二阶段的网络进行进一步的训练。
2.2多任务学习
多任务学习指的是联合训练多个关联任务,其特征是具有多个损失函数。多任务有多输入、多输出和多输入多输出等。多任务学习形式可以表示为:
式中:T、N分别为任务的数量、输入数据数量;x、y为输入和输出;W为多任务模型所有参数集合;J为多任务模型;U为参数的正则化项;Y为先验强度;L为损失函数。
本文使用的渐进式神经网络避免了传统多任务学习模型的网络参数硬共享方式,而是通过任务特征输出聚合的方式共享了知识,同时为了保证多任务学习时的整体效果,对多任务学习时候的任务权重进行调整如下:
式中:m!为任务!的权重,当任务权重越高的时候,训练时会调整训练策略,增加训练回合和提高智能体探索度;H!(4)为当前任务效率指标函数,当任务失败率越高的时候,表示越难以训练,kpi的值越低,当成功率高的时候,就表示当前任务容易训练,kpi值越高。
3实验与分析
3.1策略迁移实验
实验以基于机器视觉机器人抓取物体的实际任务实验,以验证本文方法的有效性。通过RGB摄像机可以获取视野内的图像信息,并获取待抓取物品的位置信息。获取目标位置信息具体流程如图3所示。可以通过原始图像回归候选框得到图像目标的位置,得到图4所示的机器人视野效果。将回归候选框中的目标作为重要的需要保留的目标物品,将其他图像的中其他信息筛除。
如图5所示,将多余信息筛除后,通过对图像进行栅格化可以得到一个像素坐标系,该像素坐标系相当于现实中机器人末端的运动环境,将机器人的末端吸盘作为一个像素坐标,通过控制坐标移动选择抓取点,最终经过训练的模型就可以得到当前模拟环境中的最优物品抓取点。
得到在坐标系中得到物品最优抓取点后,由于坐标系和现实环境的参数不一致,因此还需要如前文描述的将模拟环境训练得到的策略模型作为先验知识进行第二阶段训练。
3.2多任务学习实验
多任务学习实验在3维模拟器中进行。这里设置两个机器人任务,任务一是抓取目标物品,任务二是摆放目标物品,如图6所示。先固定任务二网络参数,训练任务一模型,然后再固定任务一神经网络,然后再将任务一中的模型按照渐进式神经网络的输出聚合合并,训练任务二的模型。
3.3实验结果与分析本文实验环境如表1所示。
3.3.1策略迁移的实验对比和分析
本文的策略迁移对比指标主要从策略模型性能和收敛速度进行比较。常用的对比基准方法如表2所示。
原始的渐进式神经网络算法,直接在3D模拟环境训练神经网络,没有通过本文根据现实环境构建模拟环境的过程以上方法都基于Tensorflow,模拟环境中迭代1 000个回合,每个回合500步,并对完成的策略模型进行100次抓取测试。结果分析如表3所示。
由于这5种方法在进行现实中的策略迁移时训练方式差别太大,所以只能通过相同的迭代次数来比较最终的模型性能。奖励函数是根据任务目标设立,指导模型训练向高奖励期望训练,本文的奖励函数对相同结果的
策略设置了步数惩罚值,如下所示:
Rt是每一步动作at的奖励,由固定的成功抓取的奖励值和负值步数惩罚奖励制Rp和每一步任务完成程度kpi函数的Rd组成。在这5个算法中,PNNRL的平均奖励和抓取成功次数最多,表明其策略最快,性能最好。
3.3.2多任务强化学习模型的实验对比和分析常用的多任务对比基准算法如表4所示。
用以上方法进行多任务的强化学习训练,在第二个任务训练完1 000个回合后,对比两个任务在100次中执行成功率作为评价多任务强化学习模型的指标,实验结果对比如表5所示。表中Baseline的任务二表现较好,但是出现了灾难性遗忘的情况,丧失了执行第一阶段任务的性能。而TTCN和DAMTFL算法虽然都有保留了执行第一阶段任务的性能,但本文的方法更有效。
4结束语
本文针对现有的强化学习方法采样效率低问题进行研究。改进了目前机器人学习中难以进行多任务学习的问题,提出了基于渐进式神经网络的多任务强化学习方法,该方法的训练分为两个阶段,第一个阶段会通过现实环境的状态信息构建高效的模拟环境,结合渐进式神经网络,将在模拟环境中训练得到的模型作为一个先验知识,第二阶段利用第一个阶段的先验知识,将在模拟环境学习到的策略快速迁移到现实环境的策略模型中,同时利用渐进式神经网络的优势,实现多任务的强化学习,并在工程实验中证明比同类型的算法性能更有效。
在未来的工作中,随着机器人软硬件的不断更新和发展,结合运用深度强化学习等算法,更多的复杂任务持续学习和策略迁移是重要的课题之一,同时还有其泛化性能和持续学习能力还有很大的发展空间。
参考文献:
[1]郭锦鸿.智能机器人在各领域应用及未来展望[J].电子世界,2018(19):97-98.
[2]伍平.基于深度学习的自主机器人运动决策方法研究[D].沈阳:沈阳建筑大学,2017.
[3]Kroemer O,Niekum S,Konidaris G D.A review of robot learning for manipulation:Challenges,representations,and algorithms[J].Journal of machine learning research,2021,22(30).
[4]Levine S,Koltun V.Guided policy search[C]//International con⁃ference on machine learning.PMLR,2013.
[5]Arulkumaran K,Deisenroth M P,Brundage M,et al.A Brief Sur⁃vey of Deep Reinforcement Learning[J].IEEE Signal Processing Magazine,2017,34(6).
[6]Gu S,Holly E,Lillicrap T,et al.Deep reinforcement learning for robotic manipulation[J].arXiv preprint arXiv:1610.00633,2016,1.
[7]Finn C,Levine S.Deep visual foresight for planning robot motion[C]//2017 IEEE International Conference on Robotics and Auto⁃mation(ICRA).IEEE,2017:2786-2793.
[8]Zhang F,Leitner J,Milford M,et al.Modular deep q networks for sim-to-real transfer of visuo-motor policies[J].arXiv preprint arXiv:1610.06781,2016.
[9]Peng X B,Andrychowicz M,Zaremba W,et al.Sim-to-real trans⁃fer of robotic control with dynamics randomization[C]//2018 IEEE international conference on robotics and automation(ICRA).IEEE,2018:3803-3810.
[10]Tzeng E,Devin C,Hoffman J,et al.Towards adapting deep vi⁃suomotor representations from simulated to real environments[J].arXiv preprint arXiv:1511.07111,2015,2(3).
[11]Gupta A,Devin C,Liu Y X,et al.Learning invariant feature spaces to transfer skills with reinforcement learning[J].arXiv preprint arXiv:1703.02949,2017.
[12]Chen Y,Li W,Sakaridis C,et al.Domain adaptive faster r-cnn for object detection in the wild[C]//Proceedings of the IEEE con⁃ference on computer vision and pattern recognition.2018:3339-3348.
[13]Rusu A A,Večerík M,Rothörl T,et al.Sim-to-real robot learn⁃ing from pixels with progressive nets[C]//Conference on Robot Learning.PMLR,2017:262-270.
[14]Christiano P,Shah Z,Mordatch I,et al.Transfer from simula⁃tion to real world through learning deep inverse dynamics model[J].arXiv preprint arXiv:1610.03518,2016.
[15]Peng X B,Andrychowicz M,Zaremba W,et al.Sim-to-real transfer of robotic control with dynamics randomization[C]//2018 IEEE international conference on robotics and automation
(ICRA).IEEE,2018:3803-3810.
[16]J Tobin,R Fong,A Ray.Domain randomization for transferring deep neural networks from simulation to the real world[C]//Intel⁃ligent Robots and Systems(IROS),2017 IEEE/RSJ Internation⁃al Conference on.IEEE,2017.
[17]Arulkumaran K,Deisenroth M P,Brundage M,et al.Deep rein⁃forcement learning:A brief survey[J].IEEE Signal Processing Magazine,2017,34(6):26-38.
[18]Duan Y,Andrychowicz M,Stadie B,et al.One-shot imitation learning[J].Advances in neural information processing systems,2017(30).
[19]Finn C,Yu T,Zhang T,et al.One-shot visual imitation learning via meta-learning[C]//Conference on robot learning.PMLR,2017:357-368.
[20]Yu T,Finn C,Xie A,et al.One-shot imitation from observing humans via domain-adaptive meta-learning[J].arXiv preprint arXiv:1802.01557,2018.
[21]Fang Y,Ma Z,Zhang Z,et al.Dynamic Multi-Task Learning with Convolutional Neural Network[C]//IJCAI.2017:1668-1674.
[22]Lee H B,Yang E,Hwang S J.Deep asymmetric multi-task fea⁃ture learning[C]//International Conference on Machine Learn⁃ing.PMLR,2018:2956-2964.
[23]郭丽琴,贾政轩,林廷宇,等.面向强化学习的仿真环境构建方法[C]//中国仿真学会第三十三届中国仿真大会,2021.
[24]于博文,吕明,张捷.基于分层强化学习的联合作战仿真作战决策算法[J].火力与指挥控制,2021,46(10):140-146.
[25]陈佳盼,郑敏华.基于深度强化学习的机器人操作行为研究综述[J].机器人,2022,44(2):236-256.
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!
文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/ligonglunwen/51616.html