编 | 编撰团队
智东西X年X月X日讯,DeepMind公司再度突破智能代理技术,全新代理Agent57震撼问世。该代理在街机学习环境中表现出色,在雅达利提供的57款游戏中的表现超越了人类平均水平。
最新研究成果已经发布在学术网站arXiv上,论文题目为《Agent57:超越人类基准》。
智能代理被解释为“一个能够观察周围环境并采取行动以达到目标的自主实体”,其具有深度强化学习的能力。通常来说,智能代理的形态是软件程序。而衡量代理的深度强化学习能力,则需依靠一套标准的测试流程和划分标准。
一、游戏环境成为优秀的测试场地
研究人员认为,游戏是测试自适应算法的绝佳选择。原因如下:
游戏环境提供了丰富的任务,需要玩家采用复杂的策略来应对。
游戏环境提供了一个简单的进度度量标准——游戏分数,这方便了研究人员进一步优化智能代理。
通常,研究人员将人类玩家的平均游戏得分作为基准,以衡量代理的深度强化学习能力。例如,如果代理在游戏中的表现随机,其得分就为0%;反之,如果代理的表现优于人类玩家,则得分高于100%。
随着参与的游戏越来越多,代理会不断进行深度强化学习,最终获得高分。
二、Atari57的挑战与突破
Atari57作为首选的智能代理测试工具,包含57款雅达利2600游戏。在测试中,研究人员记录代理在Atari57游戏中的平均表现,以反映其智能程度。随着时间推移和训练增多,其平均表现会越来越优秀。
Atari57也存在局限性。平均表现不能全面反映代理在哪些游戏中表现出色,哪些游戏中表现不佳。自2012年以来,街机学习环境包含的游戏数量未有增加,即使代理的平均表现越来越优秀,也仅限于有限的任务数量。
三、Agent57的迭代与突破
为了解决这些问题,DeepMind经过多年研究,开发出了新一代智能代理——Agent57。
最初,DeepMind开发了DQN算法代理,成为第一个能在大多数Atari57游戏中达到人类基准的算法。
随后,为了解决DQN在特定游戏中的不足,研究人员结合了分布式结构、深度学习、短期记忆和异策略学习等技术,开发了R2D2代理。
在记忆和学习模式上,Agent57引入了定向探索能力和内在奖励机制。通过情境记忆模式和元控制器的结合,Agent57能够在探索和开发之间取得平衡。
最新数据显示,Agent57在57款测试游戏中的表现均超越了人类基准。其平均得分为高百分比,中位得分也相当可观,尤其在难度较高的游戏中取得了显著分数。
Agent57的强化学习能力得到了普遍提升,无论是在简单游戏还是困难游戏中都表现出色。
四、Agent57的应用与展望
经过多次迭代和优化,Agent57不仅在学术研究中取得了突破,还展示了巨大的应用潜力。研究人员表示,如果加大计算量,Agent57还能达到更优的表现。
除了学术研究外,Agent57未来可应用于勘探、规划及信用赋值等领域。其强大的学习能力和适应性使其能够在不同领域发挥重要作用。
随着人工智能技术的不断发展,我们期待看到Agent57及其他智能代理技术在更多领域的应用和突破。