【CICC原创】基于兵棋推演的空战编组对抗智能决策方法研究_训练_作战

（《指挥与控制学报》刊文精选）

引用格式陈晓轩，冯旸赫，黄金才，等. 基于兵棋推演的空战编组对抗智能决策方法 [J]. 指挥与控制学报，2024，10（2）：213-219

CHEN X X, FENG Y H, HUANG J C, et al. Intelligent decision of air combat formation confrontation based on war game[J]. Journal of Command and Control, 2024, 10（2）: 213-219.

摘要

基于兵棋研究的空战编组对抗方法主要使用规则或运筹等手段，存在假设不够合理、建模不准确、应变性差等缺陷。强化学习算法可以根据作战数据自主学习编组对抗策略，以应对复杂的战场情况，但现有强化学习对作战数据要求高，当动作空间过大时，算法收敛慢，且对仿真平台有较高的要求。针对上述问题，提出了一种融合知识数据和强化学习的空战编组对抗智能决策方法，该决策方法的输入是战场融合态势，使用分层决策框架控制算子选择并执行任务，上层包含使用专家知识驱动的动作选择器，下层包含使用专家知识和作战规则细化的避弹动作执行器、侦察动作执行器和使用强化学习算法控制的打击动作执行器。最后基于典型作战场景进行实验，验证了该方法的可行性和实用性，且具有建模准确、训练高效的优点。

空战编组对抗战术是衡量各国空中作战力量的重要指标。相比于单机作战，空战编组可以共享态势信息，合理分配对空搜索任务并执行协同作战任务[1]。现代战斗机的传感器和武器更加先进，空战竞争日趋激烈，对空战编组对抗战术提出了更高的要求。兵棋推演，特别是实时策略类兵棋推演，借助计算机仿真技术，对现实世界军事问题的模拟水平日益增长，能够支撑不对称不完全信息下的动态博弈[2]，辅助训练指挥员的宏观战略决策和局部战术决策的作战能力，是研究空战编组对抗战术的重要工具。

传统的兵棋推演技术主要采用规划和运筹学知识，夏阳升等提出了一种结合车机载体协同完成多区域覆盖侦察任务的新模式，使用0-1整数规划建模技术进行建模，应用于小型无人机在战场区域侦察中[3]。张可等设计了关键点推理遗传模糊系统，结合遗传算法和模糊系统理论构成智能算法推理得到了陆战兵棋推演的行军安全点[4]。刘满等设计了一款引擎，通过挖掘兵棋历史推演数据，提取棋子历史位置概率、夺控热度、观察度等评价属性，利用多属性综合评价软优选算法和兵棋基本规则决策出棋子下步行动[5]。邹烨翰等对作战推演的相关理论基础进行归纳研究[6]，认为在理论上重视兵棋推演中的随机性和复杂性，运用军事运筹学，对问题进行求解研究，能够改善作战模拟系统性能，如果将其应用到各级决策中去，就有可能起到倍增作战能力的作用[7]。但上述方法存在假设不够合理、建模不够准确、应变性差等缺陷。

棋类智能体阿尔法狗战胜围棋世界冠军李世石事件[9]，展现了强化学习技术在智能决策领域的优势，将强化学习技术运用于兵棋推演中是当前军事智能研究的重要方向。CIANCARINI等在军棋中采用蒙特卡洛树搜索的智能体架构，以较少的领域特定知识获得更好的实验结果[10]。SUN等建立了一个基于先验知识的DQN智能决策模型用于兵棋推演中的坦克动作控制[11]。针对多智能体控制规划问题， TAN提出了离散化策略的方法[12]，即对每一个算子，都根据它的观测历史学习训练一个决策网络，但是单个算子常常存在局部观测的状态，即它只能观测到战场的部分态势环境[13]，导致单个算子只能学习得到基于局部观测的最优动作，而不能获得对于全局而言最优的动作。为了研究多智能体强化学习问题， FOERSTER等提出了分布决策、集中训练的学习范式，并在星际争霸平台取得了较好的成绩[14]。强化学习需要智能体与环境交互并得到大量高质量的数据用于训练智能体，但是对于空战编组对抗任务而言，动作空间和状态空间随着算子数目的增加而快速增加，会导致单纯的强化学习训练、收敛困难，国内鲜有使用强化学习和知识数据融合控制的空战编组对抗研究。

基于2020年的智能博弈挑战赛兵棋推演平台，本文针对兵棋推演中空战编组对抗这一核心问题，提出了一种融合知识数据和强化学习的空战编组对抗智能决策方法，从构建决策方法使用的分层决策框架开始研究，确定分层框架输入的静态数据和动态数据的融合方式，设计该决策方法的核心分层决策框架执行和训练架构。构建了典型空战对抗环境，设计了强化学习算法的状态空间和动作空间，通过设计推进函数推进该智能决策方法不断与环境交互获得样本数据，用积累的样本数据进行训练。

References

[1]　余敏建, 嵇慧明, 韩其松, 等. 基于合作协同进化的多机空战目标分配 [J]. 系统工程与电子技术, 2020, 42（6）: 1290-1300.

YU M J, JI H M, HAN Q S, et al. Multi-aircraft air combat target allocation based on cooperative co-evolutionary[J]. Systems Engineering and Electronics, 2020, 42（6）: 1290-1300. （in Chinese）

[2]　胡晓峰, 贺筱媛, 陶九阳. AlphaGo的突破与兵棋推演的挑战 [J]. 科技导报, 2017, 35（21）: 49-60.

HU X F, HE X Y, TAO J Y. AlphaGo's breakthrough and challenges of wargaming[J]. Science & Technology Review, 2017, 35（21）: 49-60. （in Chinese）

[3]　夏阳升, 石建迈, 陈超, 等. 车机协同多区域覆盖侦察路径规划方法 [J]. 指挥与控制学报, 2020, 6（4）: 372-380.

XIA Y S, SHI J M, CHEN C, et al. Path planning method for multi-area reconnaissance by cooperated ground vehicle and drone[J]. Journal of Command and Control, 2020, 6（4）: 372-380. （in Chinese）

[4]　张可, 郝文宁, 余晓晗, 等. 基于遗传模糊系统的兵棋推演关键点推理方法 [J]. 系统工程与电子技术, 2020, 42（10）: 2303-2311.

ZHANG K, HAO W N, YU X H, et al. Wargame key point reasoning method based on genetic fuzzy system[J]. Systems Engineering and Electronics, 2020, 42（10）: 2303-2311. （in Chinese）

[5]　刘满, 张宏军, 郝文宁, 等. 战术级兵棋实体作战行动智能决策方法 [J]. 控制与决策, 2020, 35（12）: 2977-2985.

LIU M, ZHANG H J, HAO W N, et al. Research on intelligent decision-making method of tactical-level wargames[J]. Control and Decision, 2020, 35（12）: 2977-2985. （in Chinese）

[6]　邹烨翰, 冯旸赫, 程光权, 等. 面向军事条令条例的本体构建技术 [J]. 指挥与控制学报, 2019, 5（1）: 47-54.

ZOU Y H, FENG Y H, CHENG G Q, et al. Ontology developing technology for military regulations[J]. Journal of Command and Control, 2019, 5（1）: 47-54. （in Chinese）

[7]　张明星, 程光权, 刘忠, 等. 多武器协同作战发射时序规划方法 [J]. 指挥与控制学报, 2017, 3（1）: 10-18.

ZHANG M X, CHENG G Q, LIU Z, et al. Schedule of launch sequential timing in multiple weapons cooperative engagement[J]. Journal of Command and Control, 2017, 3（1）: 10-18. （in Chinese）

[8]　VOLODYMYR MNIH, KORAY KAVUKCUOGLU, et al. Human-level control through deep reinforcement learning[J]. Nature: International weekly journal of science, 2015, 518（7540）.

[9]　DAVID SILVER, JULIAN SCHRITTWIESER, et al. Mastering the game of Go without human knowledge[J]. Nature: International Weekly Journal of Science, 2017, 550（7676）.

[10] CIANCARINI P, FAVINI G P, et al. Monte carlo tree search in kriegspiel[J]. Artificial Intelligence, 2010, 174（11）: 670-684.

[11] SUN Y, YUAN B, ZHANG T, et al. Research and implementation of intelligent decision based on a priori knowledge and DQN algorithms in wargame environment[J]. Electronics, 2020, 9（10）: 1668.

[12] TAN M. Multi-agent reinforcement learning: independent vs. cooperative agents[J]. Machine Learning Proceedings, 1993: 330-337.

[13] 梁星星, 冯旸赫, 马扬, 等. 多Agent深度强化学习综述 [J]. 自动化学报, 2020, 46（12）: 2537-2557.

LIANG X X, FENG Y H, MA Y, et al. Deep multi-agent reinforcement learning: a survey[J]. Acta Automatica Sinica, 2020, 46（12）: 2537-2557. （in Chinese）

[14] FOERSTER J, FARQUHAR G, AFOURAS T, et al. Counterfactual multi-agent policy gradients[C]// Proceedings of the Thirty-second AAAI Conference on Artificial Intelligence, 2018.

[15] 刘朝阳, 穆朝絮, 孙长银. 深度强化学习算法与应用研究现状综述 [J].智能科学与技术学报, 2020, 2（4）: 314-326.

LIU Z Y, MU C X, SUN C Y. An overview on algorithms and applications of deep reinforcement learning[J]. Chinese Journal of Intelligent Science and Technology, 2020, 2（4）: 314-326. （in Chinese）

[16] TABISH RASHID, MIKAYEL SAMVELYAN, et al. QMIX: monotonic value function factorisation for deep multi-agent reinforcement learning[J]. arXiv preprint arXiv:1803.11485.

关注公众号了解更多

会员申请请在公众号内回复“个人会员”或“单位会员

欢迎关注中国指挥与控制学会媒体矩阵

CICC官方网站

CICC官方微信公众号

《指挥与控制学报》官网

国际无人系统大会官网

中国指挥控制大会官网

全国兵棋推演大赛

全国空中智能博弈大赛

搜狐号

一点号返回搜狐，查看更多