DeepMind用新AI超越自己：提速200倍，在所有雅达利游戏上胜过人

发布时间：2022-10-04 14:06:06|来源：IT之家|阅读量：4062|

DeepMind又在攻击雅达利游戏了！

这次他们最新的agent MEME，效果一样，比两年前的Agent57快200倍！

DeepMind在2020年开发的代理Agent57有史以来第一次在全部57款雅达利游戏中超越了人类基准性能。

但它有一个致命的缺陷:效率低:需要近800亿帧的数据训练才能实现。

现在，模因的出现完美地解决了这个问题。

有网友看后表示:这才是真正的样本效率。

话不多说，我们来快速看一下。

新代理:MEME

Agent57作为Atari所有游戏中第一个超越人类基准性能的代理，性能足够先进。

但问题是，为了实现这个目标，背后需要780亿帧的庞大经验训练，无论从时间还是成本上来说，都是一笔不小的开支。

因此，以Agent57为出发点，DeepMind采取了一系列不同的策略来提高训练效率。

他们调查了还原数据系统中遇到的一系列不稳定因素和瓶颈，提出了有效的解决方案，最终建立了一个更强大，更高效的代理:MEME。

新的MEME agent主要在Agent57的四个方面进行了改进，即:

A.实现稀有事件相关学习信号的快速传播，

B.不同价值尺度下的稳定学习，

C.改进神经网络的结构，

D.使更新在快速变化的策略下更加健壮。

为了实现这四个目标，DeepMind采取了以下方法，分别对应以上四点。

A1。在线网络指导，

A2。带公差的目标计算，

B1。损失和优先级标准化，

B2。交叉混合训练，

C1。不规范的干线网络，

C2。综合损耗的共享干线，

D.由策略提炼的健壮行为。

这些方法旨在提高Agent57的数据效率，但这种效率的提高不能以牺牲终端性能为代价。

因此，为了测试上述步骤后agent MEME的效率和性能，研究团队分别在2亿帧，10亿帧，200亿帧和900亿帧环境下进行训练。

从下图中可以直观的看出，新agent MEME以3.9亿帧超越了人类基准，比Agent57快了两个数量级，在参数数量从90B减少到1B的情况下取得了类似的最终性能。

可以说，与Agent57相比，MEME不仅提高了效率，而且保持了性能。

研究团队

MEME的研究团队来自DeepMind。

值得一提的是Steven Kapturowski是这两篇论文中的一篇。

毕业于美国科罗拉多大学博尔德分校，曾就职于苹果，微软，Glassdoor等公司，现为DeepMind高级研究工程师。

涉及

。

声明：本网转发此文章，旨在为读者提供更多信息资讯，所涉内容不构成投资、消费建议。文章事实如有疑问，请与有关方核实，文章观点非本网观点，仅供读者参考。