运载火箭的制导回收实现对于航天发展具有重大意义, 在火箭回收任务中对回收精确制导、实时低时延的计算 能力有高标准,传统回收方法在解决该问题上表现出了一定的缺陷和局限性。本文对...
【目的】针对多智能体强化学习过程中样本利用率低、奖励稀疏、收敛速度慢等问题,提出了一种基于后验经验 回放的算法。...
近些年随着深度强化学习的不断发展,其训练成本也在不断增加,然而传统的训练平台大部分是基于顺序执行训 练,不仅训练时间长、硬件成本高昂,且数据采样也非常困难。...
成仿吾,无产阶级革命家、忠诚的共产主义战士... 详细>>
如何设计有效的环境治理政策, 是学术界和政策... 详细>>