授权公布号:CN109663359B
游戏智能体训练的优化方法、装置、终端设备与存储介质
有效
申请
2018-12-06
申请公布
2019-04-23
授权
2022-03-25
预估到期
2038-12-06
| 申请号 | CN201811492348.1 |
| 申请日 | 2018-12-06 |
| 申请公布号 | CN109663359A |
| 申请公布日 | 2019-04-23 |
| 授权公布号 | CN109663359B |
| 授权公告日 | 2022-03-25 |
| 分类号 | A63F13/67;G06N3/04;G06N3/08 |
| 分类 | 运动;游戏;娱乐活动; |
| 申请人名称 | 广州多益网络股份有限公司 |
| 申请人地址 | 广东省广州市黄埔区伴河路90号 |
专利法律状态
2022-03-25
授权
状态信息
授权
2019-04-23
公布
状态信息
公布
摘要
本发明公开了一种游戏智能体训练的优化方法、装置、终端设备与存储介质,包括:根据游戏脚本获取第一观测序列,并设为当前观测序列;基于预先训练的自编码网络,根据当前观测序列获得下一观测序列和当前环境回报;基于预先训练的自编码网络和预先训练的预测网络,根据当前观测序列和下一观测序列获取当前自我驱动回报;将当前环境回报和当前自我驱动回报加入到累积回报中,并判断累积回报是否小于目标值;如果累积回报小于目标值,则将下一观测序列作为当前观测序列继续训练,直至累积回报达到目标值停止训练。本发明能够使游戏智能体获得额外的自我驱动回报进行训练,从而提高训练效率,节省运行资源。


