植物百科网
当前位置: 首页 农业百科

人工智能deeplearning(所有任务超越人类)

时间:2023-07-08 作者: 小编 阅读量: 1 栏目名: 农业百科

然而,截至目前,这一任务依然是一个重大挑战。在被用于更新网络权重前,PopArt利用这些统计数据归一化目标。在实验中,与没有使用PopArt的基线智能体相比,PopArt显著提升了智能体的性能。虚线代表未使用奖励修剪的智能体。我们建议自动调整每个任务对智能体更新的贡献,以便所有任务对学习动态产生类似的影响。据我们所知,这是单个智能体首次超越此多任务域的人类级别性能。

多任务学习使得单个智能体可以学习解决许多不同的问题,是人工智能研究中的长期目标。最近,该领域取得了许多重大进展,DQN 等智能体可以使用相同的算法玩不同的游戏,包括「Breakout」和「Pong」游戏。这些算法用于训练单个专家智能体完成每项任务。随着人工智能研究深入到更多复杂的现实世界领域,构建单个通用智能体(与多专家智能体相反)来学习完成多个任务将变得至关重要。然而,截至目前,这一任务依然是一个重大挑战。

选自DeepMind,作者:Matteo Hessel等,机器之心编译,参与:刘晓坤、张倩。

难点之一在于,强化学习智能体用来判断成功的奖励等级往往有所不同,导致他们将注意力集中在奖励更高的任务上。例如,在 Atari 游戏乒乓球(Pong)中,智能体每一步接收的奖励可能是-1、0 或 1,但玩吃豆人(Ms. Pac-Man)游戏的智能体可以在单个步骤中获得数百或数千分。即使个体奖励的大小可以比较,但随着智能体不断进化,奖励的频率可能会随着时间发生变化。这意味着智能体更倾向于得分高的任务,导致其在某些任务上的表现越来越好,但在其他任务中却越来越差。

为了解决此类问题,DeepMind 开发了 PopArt,这一技术可以调整每个游戏中分值的大小,使得智能体认为每个游戏都有同等的学习价值,无论每个特定游戏中可以得到的奖励有多大。开发人员将 PopArt 归一化应用到一个拥有当前最佳性能的强化学习智能体中,得到一个可以玩 57 种 Atari 电子游戏的单个智能体,该智能体在所有游戏中的表现超过人类中等水平。

从广义上来说,深度学习依赖于神经网络权重更新,其输出不断逼近理想目标输出。神经网络用于深度强化学习中时也是如此。PopArt 通过估计这些目标的平均值和分布来工作(例如游戏中的分数)。在被用于更新网络权重前,PopArt 利用这些统计数据归一化目标。利用归一化的目标使得学习更加稳定,并且对规模和变化更加鲁棒。为了得到准确的估计(如预期未来分数),网络的输出可以通过反转归一化过程缩放到真实目标范围。如果结果理想,数据的每次更新都将改变所有未归一化的输出,包括那些已经很好的输出。开发人员通过反向更新网络来避免这类情况的发生,只要更新统计数据,这种做法就可以进行。这意味着我们既可以获得大规模更新的好处,又能保持以前学习到的输出不变。正是出于这些原因,该方法被命名为 PopArt:它在运行中既能精确地保持输出,又能自适应地重新缩放目标。

PopArt 作为修剪奖励的替代方案

传统上,研究者通过在强化学习算法中使用奖励修剪来克服变化奖励范围的问题。这种修剪方法将大的奖励和小的奖励分别转换为 1 和-1,粗略地归一化期望奖励。尽管这使得学习过程变得更加容易,它也改变了智能体的目标。例如,在吃豆人(Ms. Pac-Man)游戏中,智能体的目标是收集小球,收集一颗奖励 10 分,而吃掉幽灵则奖励 200 到 1600 分,如果使用奖励修剪,则在吃掉小球和吃掉幽灵之间将不会有明显的区别,导致智能体最终只吃小球,不会再想办法捕捉幽灵,如下所示:

当移除奖励修剪方案,并使用 PopArt 的适应性归一化来稳定学习过程时,它出现了非常不同的行为,智能体开始主动捕捉幽灵,并得到更高的分数,如下所示:

利用 PopArt 进行多任务深度强化学习

DeepMind 将 PopArt 应用到重要性加权 Actor-Learner 架构(IMPALA)上,这是 DeepMind 最流行的深度强化学习智能体之一。在实验中,与没有使用 PopArt 的基线智能体相比,PopArt 显著提升了智能体的性能。在结合修剪奖励和未修剪奖励的条件下,PopArt 智能体在游戏中的中位数分数超越了人类玩家的中位数分数。这远远高于结合修剪奖励的基线智能体,而未结合修剪奖励的基线智能体完全无法达到有意义的性能,因为它无法有效地处理游戏中奖励规模的大范围变化。

57 个 Atari 游戏上的中位数标准化性能。每一条线对应单个智能体使用同一个神经网络在所有游戏中得到的中位数性能。实线代表使用了奖励修剪的智能体。虚线代表未使用奖励修剪的智能体。

这是首次使用单个智能体在这种多任务环境中实现超越人类的表现,表明 PopArt 可以为这样的开放性研究问题提供线索,即如何在没有手动修剪或缩放奖励的情况下平衡不同的目标函数。PopArt 实现在学习的同时自动适应归一化的能力在应用 AI 到更加复杂的多模态领域时可能是很重要的,其中智能体必须学会权衡多个不同的具备变化奖励的目标函数。

论文:Multi-task Deep Reinforcement Learning with PopArt

论文链接:https://arxiv.org/abs/1809.04474

摘要:强化学习社区在设计能够在特定任务上超越人类表现的算法方面取得了很大进展。这些算法大多用于训练单项任务,每项新任务都需要训练一个全新的智能体。这意味着学习算法是通用的,但每个解决方案并不通用;每个智能体只能解决它所训练的一项任务。在这项工作中,我们研究了学习掌握多个而不是一个序列决策任务的问题。多任务学习中的一个普遍问题是,如何在竞争单个学习系统的有限资源的多个任务需求之间找到平衡。许多学习算法可能会被一系列任务中的某些待解决任务分散注意力。这样的任务对于学习过程似乎更为突出,例如由于任务内奖励的密度或大小的原因。这导致算法以牺牲通用性为代价关注那些更突出的任务。我们建议自动调整每个任务对智能体更新的贡献,以便所有任务对学习动态产生类似的影响。这让智能体在学习玩 57 种不同的 Atari 游戏时表现出了当前最佳性能。令人兴奋的是,我们的方法仅学会一个训练有素的策略(只有一套权重),却超过了人类的中等表现。据我们所知,这是单个智能体首次超越此多任务域的人类级别性能。同样的方法还在 3D 强化学习平台 DeepMind Lab 的 30 项任务中实现了当前最佳性能。

    推荐阅读
  • 空气含量中最多的气体(空气含量中最多的气体介绍)

    空气中含量最多的气体是氮气,氮气约占空气体积分数的百分比约为78%。通过实验测定,空气的成分按体积计算,氮气大约占78%、氧气占21%、稀有气体0.94%、二氧化碳0.03%、其他气体和杂质0.03%,也就是说空气中含量最多的物质是氮气。氮气化学性质很不活泼,在高温高压及催化剂条件下才能和氢气反应生成氨气;在放电的情况下才能和氧气化合生成一氧化氮;即使Ca、Mg、Sr和Ba等活泼金属也只有在加热的情形下才能与其反应。

  • 文思豆腐羹如何做好吃(文思豆腐羹用什么豆腐)

    文思豆腐是一道有名的淮扬菜,需要的就是精湛的刀工,这样做出的文思豆腐会有嫩滑的口感,打造入口即化的口感。文思豆腐羹如何做好吃文思豆腐羹材料和做法步骤一、文思豆腐羹材料准备好豆腐400克,鸡脯肉,火腿还有香菇,再有准备好生菜,冬笋,调料需要准备盐和味精。

  • 结构性存款可以买理财吗(结构性存款是存款吗)

    雪球产品就是今年年初监管向信托公司进行窗口指导,要求叫停的产品。简单的说,这是一种高风险的金融衍生品,它通过持有一定结构的金融衍生品,来实现在某一特定情况下获利。这样的投资结构就能保证我不论涨,还是跌,只要在一定幅度内都可以盈利。交易期权等金融衍生品,是非常高风险的投资。

  • 正言厉色意思(正言厉色的意思)

    下面内容希望能帮助到你,我们来一起看看吧!正言厉色意思正言厉色,汉语成语,拼音是zhènɡyánlìsè,意思是形容板着脸,神情非常严厉。出自《汉书·王莽传》。宝玉突然想出一个主意,一本正经地给她讲扬州黛山林子洞耗子精偷香芋的故事,黛玉见他正言厉色,以为真有其事,后来才发现原来是在取笑她。

  • 面谈调薪酬有什么技巧(跟老板谈调薪的技巧有哪些)

    如果你在老板心目中分量很大,一般老板都会给你加薪的。和老板谈加薪时目的一定要明确,让老板知道你只是为了加薪,而不是辞职走人。和老板谈加薪后,一定要给老板一个考虑的时间,不要咄咄逼人,逼着老板加薪。老板也要有足够的思考时间,来考虑你是否值得加薪,给你加薪后对公司有没有什么影响。不仅口头上要表示感谢,工作中要更加努力,让老板觉得给你加薪是值得的。

  • 杏花有没有香味(杏花闻起来会特别香吗)

    杏树是中国著名的观赏树木,可配植于庭前、墙隅、道路旁、水边,也可群植、片植于山坡、水畔,是春季主要的观赏树种。杏花直径2至3厘米,先于叶开放。花梗短,长1至3毫米,被短柔毛。花萼紫绿色,萼筒圆筒形,外面基部被短柔毛。萼片卵形至卵状长圆形,先端急尖或圆钝,花后反折。花瓣圆形至倒卵形,白色或带红色,具短爪。

  • 减肥减肚子的方法(怎么减肚子呢)

    减肥减肚子的方法食用健康食品:酸奶与发酵的牛奶能激活消化必须的物质,有助于改善肠道微生物系统,从而防止腹部隆起。走路、喝水、按摩:走路及喝水有利腹部扁平。

  • 新坑翡翠手镯多少钱(新坑翡翠手镯的价格)

    新坑翡翠手镯多少钱?新坑翡翠手镯多少钱翡翠手镯作为大件翡翠制品,用料特别多,只有大块、质量好的翡翠原石才能打造成手镯,因此翡翠手镯的价格都比较高,商家们拿到质量比较好的原石也尽可能打造成手镯。具体到新坑种翡翠,因为大多数新坑种翡翠透明度都不高,质地也不够细腻,因此种水一般都是以糯种或豆种为主,极少出现冰种或冰种以上的种水,这样的翡翠价格价格自然不会太高,一个品质比较好的糯种翡翠手镯大概在十万以内。

  • 宁波毛蚶做法水煮几分钟(毛蚶煮多长时间可以吃)

    宁波毛蚶做法水煮几分钟毛蚬是很多人喜欢吃的食物,不过建议大家在做之前都要先用开水煮以下。强精益气,提高精液质量,增强精子活力。适用于治疗肾阳虚所致的阳痿、腰痛、小便频数及补五脏之气不足。可治疗全身水肿,小便不利等。能软化和保护血管,有降低人体中血脂和胆固醇的作用。

  • 2022洛阳湿地公园最新名单 洛阳生态公园最新消息

    国家级湿地自然保护区河南黄河湿地国家级自然保护区,面积24000公顷。国家级湿地公园嵩县陆浑湖国家湿地公园,面积4222.39公顷伊川伊河国家湿地公园,面积1384.36公顷。