首页
品牌
排行
问答
专题
特惠
资讯
展会
百科
热门行业
装修建材
家居生活
餐饮食品
母婴教育
电脑办公
服装首饰
汽车工具
家电数码
机械化工
休闲美容
热门行业
教育培训
板材
地板
涂料
家纺
集成吊顶
美缝剂
木门
硅藻泥
管材
指纹锁
橱柜
衣柜
床垫
电热水器
集成灶
暖气片
净水器
酒店
卫浴
装修建材
卫浴洁具
板材
地板
建筑陶瓷
天花板
涂料
瓷砖泥瓦
水电管材
火锅
快餐
生活用品
软装
装饰装潢
灯具
家纺
干洗服务
内衣
男装
女装
幼教
整体卫浴
地板砖
阻燃板
铝材
集成吊顶
美缝剂
硅藻泥
管材
烤鱼
汉堡
叶酸
婴儿用品
婴儿床
指纹锁
品牌首页
品牌资讯
企业信息
商标信息
专利信息
返回上一页
专利状态
游戏智能体训练的优化方法、装置、终端设备与存储介质
有效
专利申请进度
申请
2018-12-06
申请公布
2019-04-23
授权
2022-03-25
预估到期
2038-12-06
专利基础信息
申请号
CN201811492348.1
申请日
2018-12-06
申请公布号
CN109663359A
申请公布日
2019-04-23
授权公布号
CN109663359B
授权公告日
2022-03-25
分类号
A63F13/67;G06N3/04;G06N3/08
分类
运动;游戏;娱乐活动;
申请人名称
广州多益网络股份有限公司
申请人地址
广东省广州市黄埔区伴河路90号
专利法律状态
2022-03-25
授权
状态信息
授权
2019-04-23
公布
状态信息
公布
摘要
本发明公开了一种游戏智能体训练的优化方法、装置、终端设备与存储介质,包括:根据游戏脚本获取第一观测序列,并设为当前观测序列;基于预先训练的自编码网络,根据当前观测序列获得下一观测序列和当前环境回报;基于预先训练的自编码网络和预先训练的预测网络,根据当前观测序列和下一观测序列获取当前自我驱动回报;将当前环境回报和当前自我驱动回报加入到累积回报中,并判断累积回报是否小于目标值;如果累积回报小于目标值,则将下一观测序列作为当前观测序列继续训练,直至累积回报达到目标值停止训练。本发明能够使游戏智能体获得额外的自我驱动回报进行训练,从而提高训练效率,节省运行资源。
更多专利
1
一种连续帧视频流的人脸关键点跟踪方法和系统
2
一种系统登录方法及装置
3
水印嵌入方法、装置、设备及计算机可读存储介质
4
服务器的分配方法、系统及存储介质
5
2D地图的显示方法、装置、设备及存储介质
6
语句相似度的计算方法、装置及存储介质
7
手机游戏渲染数据的采集方法、装置及存储设备
8
一种自动拓增语料的语音合成模型训练方法和系统
9
一种企业IM的群组创建方法及装置
10
一种手游的游戏对战处理方法及装置
11
对象匹配的方法及系统
12
多进程交互方法、系统和服务器
13
一种文本分类方法、装置、电子设备及存储介质
14
一种近义词筛选方法及系统
15
一种碰撞检测方法、装置、设备及介质
16
一种共享云端家族通讯录的方法
17
改变终端应用行为的方法、装置及终端
18
实现人工智能行为的方法、系统及人工智能行为编辑器
19
一种动态信息的筛选显示方法和装置
20
一种基于命名实体识别的中文标点符号添加方法
全国服务热线:
在线客服
1211389656
咨询
商务合作
85926368
咨询
媒体合作
921888730
咨询
在线客服
客服微信号
品牌网官方客服微信
打开微信扫一扫
客服微信
商务合作微信
商务合作详谈
打开微信扫一扫
商务合作
回到顶部