游戏智能体训练的优化方法、装置、终端设备与存储介质

授权公布号：CN109663359B

有效

申请

2018-12-06

申请公布

2019-04-23

授权

2022-03-25

预估到期

2038-12-06

申请号	CN201811492348.1
申请日	2018-12-06
申请公布号	CN109663359A
申请公布日	2019-04-23
授权公布号	CN109663359B
授权公告日	2022-03-25
分类号	A63F13/67;G06N3/04;G06N3/08
分类	运动；游戏；娱乐活动;
申请人名称	广州多益网络股份有限公司
申请人地址	广东省广州市黄埔区伴河路90号

专利法律状态

2022-03-25 授权

状态信息

授权

2019-04-23 公布

状态信息

公布

摘要

本发明公开了一种游戏智能体训练的优化方法、装置、终端设备与存储介质，包括：根据游戏脚本获取第一观测序列，并设为当前观测序列；基于预先训练的自编码网络，根据当前观测序列获得下一观测序列和当前环境回报；基于预先训练的自编码网络和预先训练的预测网络，根据当前观测序列和下一观测序列获取当前自我驱动回报；将当前环境回报和当前自我驱动回报加入到累积回报中，并判断累积回报是否小于目标值；如果累积回报小于目标值，则将下一观测序列作为当前观测序列继续训练，直至累积回报达到目标值停止训练。本发明能够使游戏智能体获得额外的自我驱动回报进行训练，从而提高训练效率，节省运行资源。