您的当前位置:拉菲7 > 头条新闻 > 正文

1个AI玩57个游玩,DeepMind正在成为通用人造智能-

  • 作者:admin    最后更新:2021-07-08 19:59    点击数:
  • 郭一璞 栗子 安妮 发自 凹非寺 量子位 报道 | 公多号 QbitAI

    DeepMind刚刚宣布,他们在多义务学习上取得了重大的挺进,也就是让单个智能体学会很多分别义务:

    DQN(Deep Q-Network)现在能够用同样的算法一口气学会玩57个雅达利游玩了,而且玩得还不差,能达到人类中位数程度。

    这意味着,人类离创造出会做很多分别事情的通用人造智能(AGI)又进了一步。

    此前,每个智能体(agent)只会玩一个游玩,有特意玩《吃豆人》的,有特意玩《打砖块》的,有特意玩《乒乓球》的。倘若让学会了《打砖块》的AI去玩《吃豆人》,那就会捡了芝麻丢了西瓜,等它学会《吃豆人》,就把《打砖块》给忘了。

    直到去年3月,DeepMind才钻研出新的算法,让AI学会《吃豆人》后不遗忘《打砖块》怎么玩。

    但在让1个AI学57个游玩时,DeepMind遇到了题目:

    每个游玩的计分机制分别,奖励尺度也分别,AI只挑得分高的玩。

    △ 乒乓球

    拿玩乒乓球(Pong) 的游玩来举栗,每一步有三栽能够的奖励:

    -1:AI没接住对方发来的球,不光没挣分,逆而倒贴一分;

    0:AI接住了球,进入了敌吾双逆循环去复的弹球过程,辛勤却异国收获;

    +1:AI费了半天劲,终于让对方失手一次,才能得1分,名义上是1分,实际这1分来之不易。

    但倘若AI选择去玩吃豆人,只要一出门,就能够吃到继续串的豆豆,轻轻盈松获得几十上百分,分多、事少、易上手。

    之后每走一步 (转曲) ,能够的奖励就有很多栽了:能够去前一格就物化了,能够走十几格都没遇到敌人,能够无敌状态下吃失踪几只敌人,分数会很纷歧样。

    于是,只要不被敌人抓到,吃豆的奖励清晰比打乒乓球高得多。

    AI每天入神吃豆,遗忘打球,醉心于一幼片面游玩,全然失踪臂身上还肩负着代外全AI界、学会通盘57个雅达利游玩的重任。

    这该如何是益?

    DeepMind想了想,推出了给智能体“修改KPI”的大杀器:

    PopArt。

    详细怎么玩?

    PopArt技术,能够让分别游玩的奖励尺度互相体面首来,两个游玩就能受到相对平等的对待。

    如此,就算分值的数目级相差很多,也不主要。

    钻研人员用PopArt调教了现在最先辈的深化学习智能体,使得一只AI能够学会57栽雅达利游玩了,外现超过了人类的中位数。

    其实,深度学习靠的是不息更新的权重。如许,输出的行为就会越来越挨近理想的行为。

    这在深度深化学习里,也相通适用。

    PopArt的做事原理,就是估算各栽现在的行为之间的平均值,以彼此之间的差距有多大。议决游玩分值来估算。

    然后,在更新权重之前,用这些统计数据,把现在的行为归一化。

    如许一来,学习过程就会变得比较安详,不容易由于奖励尺度之类的因素而发生转折。

    那么,怎样才能推想得准?

    网络的输出值,能够重新调回实在现在的的周围 (True Target Range) ,只要把归一化过程倒过来就益了。

    倘若写代码不仔细,统计数据会把一切没归一的输出全改了,就算是用不着归一就已经很益用的那栽,也会改失踪。

    要预防这栽情况,DeepMind找到了一个手段,每次更新统计数据的时候,都把网络朝着逆倾向更新一下。

    这栽操作会成功,外示调整奖励尺度 (同时,把之前学过的输出就留在那里不动) ,照样有效的。

    团队说,之以是给AI首名PopArt (波普艺术) ,有意就是保存老的,添上新的。

    PopArt替代的是奖励剪裁 (Reward Clipping) 。

    清淡来说,遇到奖励尺度分别的情况,钻研人员会选择剪裁一下奖励。

    把太大的和太幼的,都调整到 [-1, 1] 的区间里,这是归一化的粗糙版。

    固然,这个手段学习首来更容易,但学习现在的也会发生转折。

    照样吃豆人的游玩,现在的就是吃豆和吃敌人,每颗豆10分,吃失踪敌人会获得200到1,600不等的分数。

    剪裁奖励的话,吃豆和吃敌人能够就没区别了。如许训练出来的AI,很能够只吃豆,十足不去追敌人,毕竟吃豆容易。

    这时候用PopArt归一化,来代替剪裁步骤,训练效率就截然分别了。

    智能体会去追敌人了,得的分数也高了很多。

    实验终局

    末了,钻研人员将PopArt行使于Importance-weighted Actor-Learner Architecture (IMPALA)中,这是DeepMind此前挑出的、最常用的深度深化学习智能体。

    在ALE模拟器中,钻研人员测试了57栽Atari游玩中,智能体在奖励剪裁和未剪裁两栽情况下,行使PopArt前后的得分情况。

    △ 奖励剪裁后的得分情况△ 奖励剪裁后的得分情况

    能够望出,橙色的PopArt-IMPALA平均外现为人类平常得分中位数的110%,未剪裁版中的平均得分为人类程度的101%,能够望出,不论剪裁与否,PopArt都能挑高智能体在游玩中的得分。

    蓝色未行使PopArt的IMPALA智能体外现比较糟糕,不论是否经过了剪裁。剪裁后的基线总程度不能人类得分中位数的60%,未剪裁时的得分挨近0%,与PopArt-IMPALA的外现形成了明晰的对比。

    此外,由于多义务PopArt行使了特定级别值增补了网络容量,因此钻研人员进走了额外的实验,想解开增补网络容量对自体面归一化的影响。图中粉色的MultiHead-IMPALA走势,就是钻研人员用特定级别的值展望,但不行使PopArt自体面标准化学习得到的终局。

    实验外明,不论是否剪裁,MultiHead-IMPALA的外现都比IMPALA略差,这证实了PopArt-IMPALA的性能升迁实在是源于自体面周围的转折(adaptive rescaling)。

    钻研人员还钻研了每栽智能体处理的总帧数的曲线。此前,DeepMind发布了义务荟萃DmLab-30,包含公共行为空间的视觉同一环境中的多栽挑衅性义务,训练智能体再益不过。

    在这边,钻研人员照样用自家的DmLab-30基准衡量行使了PopArt策略的效率卓异程度。图中每一片颜色区域代外了最优得分和最差得分区间。能够望出,在家DMLab-30义务荟萃上训练时,照样为PopArt策略下的智能体外现最益。

    综上所述,与异国PopArt的基准智能体相比,PopArt大大挑高了智能体的性能。不论奖励是否剪裁,PopArt智能体在游玩中的中位数得分高于人类中位数,远远高于结相符了剪裁奖励的基准智能体。而具有未剪裁奖励的基线无法得出有意义的外现,由于它无法有效处理游玩中奖励周围的大幅度转折。

    传送门

    末了,附DeepMind官方博客地址:

    https://deepmind.com/blog/preserving-outputs-precisely-while-adaptively-rescaling-targets/

    论文Multi-task Deep Reinforcement Learning with PopArt地址:

    https://arxiv.org/abs/1809.04474

    — 完 —

    迎接行家关注吾们的专栏:量子位 - 知乎专栏

    真挚雇用

    量子位正在招募编辑/记者,做事地点在北京中关村。憧憬有才气、有亲炎的同学添入吾们!有关细节,请在量子位公多号(QbitAI)对话界面,回复“雇用”两个字。

    量子位 QbitAI· 头条号签约作者

    ?'?' ? 追踪AI技术和产品新动态

    Powered by 拉菲7 @2018 RSS地图 HTML地图

    Copyright 站群 © 2013-2021 版权所有