植物百科网
当前位置: 首页 农业百科

deepmind框架大全(DeepMind开始训练智能体像人一样)

时间:2023-08-08 作者: 小编 阅读量: 2 栏目名: 农业百科

DeepMind在这一领域有了新的研究成果。总之,研究者结果展示了一种超越MiniWob基准测试能力以及像人类一样控制计算机的方案。DeepMind从77名人类参与者那里收集了超过240万个104MiniWob任务演示,总计大约6300小时,并使用模仿学习和强化学习的简单混合来训练智能体。实验结果MiniWob上的人类水平性能由于大部分研究通常只解决了MiniWob任务的一个子集,因此该研究在每个单独的任务上采用已公开的最佳性能,然后将

deepmind框架大全?机器之心报道机器之心编辑部,下面我们就来聊聊关于deepmind框架大全?接下来我们就一起去了解一下吧!

deepmind框架大全

机器之心报道

机器之心编辑部

人类每天使用数字设备的时间长达数十亿小时。如果我们能够开发出协助完成一部分这些任务的智能体,就有可能进入智能体辅助的良性循环,然后根据人类对故障的反馈,改进智能体并使其获得新的能力。DeepMind 在这一领域有了新的研究成果。

如果机器可以像人类一样使用计算机,则可以帮助我们完成日常任务。在这种情况下,我们也有可能利用大规模专家演示和人类对交互行为的判断,它们是推动人工智能最近取得成功的两个因素。

最近关于 3D 模仿世界中自然语言、代码生成和多模态交互行为的工作(2021 年 DeepMind 交互智能体团队)已经产生了具备卓越表达能力、上下文感知和丰富常识的模型。这项研究有力地证明了以下两种组件的力量:机器与人类之间一致的丰富、组合输出空间;为机器行为提供信息的大量人类数据和判断。

具备这两种组件但受到较少关注的一个领域是数字设备控制(digital device control),它包括使用数字设备来完成大量有用任务。由于几乎完全使用数字信息,该领域在数据采集和控制并行化方面具有很好的扩展性(与机器人或聚变反应堆相比)。该领域还将多样化、多模态输入与富有表达能力、可组合且兼容人类的可供性相结合。

近日,在 DeepMind 的新论文《A Data-driven Approach for Learning to Control Computers》,研究者重点探究了训练智能体像人一样进行键盘和鼠标的基本计算机控制。

论文地址:http://arxiv.org/pdf/2202.08137.pdf

DeepMind 对计算机控制进行初步调查采用的基准是 MiniWob任务套件(一组具有挑战性的计算机控制问题),它包含一组执行点击、打字、填写表格和其他此类基本计算机交互任务的指令(下图 1 b)。MiniWob进一步提供了以编程方式定义的奖励。这些任务是迈向更开放人机交互的第一步,其中人类使用自然语言指定任务并提供有关性能的后续判断。

研究者重点训练智能体来解决这些任务,使用的方法在原则上适用于任何在数字设备上执行的任务,并且具备符合预期的数据和计算扩展特性。因此,他们直接结合强化学习(RL)和行为克隆(BC)两种技术,其中行为克隆通过人类与智能体行动空间之间的对齐来辅助完成(也就是键盘和鼠标)。

具体地,研究者探究使用键盘和鼠标进行计算机控制,并通过自然语言指定对象。并且,他们没有专注于手工设计的课程和专门的行动空间,而是开发了一种基于强化学习的可扩展方法,并结合利用实际人机交互提供的行为先验。

这是 MiniWob(2016 年由 OpenAI 提出的一种与网站交互的强化学习智能体的基准,MiniWob是它的扩展版本)构想中提出的一种组合,但当时并未发现可以生成高性能智能体。因此,之后的工作试图通过让智能体访问特定 DOM 的操作来提升性能,并通过受限的探索技术使用精心策划的指导来减少每个步骤中可用的行动数量。通过重新审视模仿与强化学习的简单可扩展组合,研究者发现实现高性能主要的缺失因素仅是用于行为克隆的人类轨迹数据集的大小。随着人类数据的增加,性能会可靠地提升,使用的数据集大小是以往研究中的 400 倍。

研究者在 MiniWob基准测试中的所有任务上都实现了 SOTA 和人类平均水平,并找到了跨任务迁移的强有力证据。这些结果证明了训练机器使用计算机过程中统一的人机界面非常有用。总之,研究者结果展示了一种超越 MiniWob基准测试能力以及像人类一样控制计算机的方案。

对于 DeepMind 的这一研究,网友大都惊呼「不可思议」。

方法

MiniWob

MiniWob是 Liu 等人在 2018 年提出的基于 web 浏览器的套件,是早期 MiniWob(Mini World of Bits)任务套件的扩展,而 MiniWoB 是一个用于与网站交互的强化学习基准,其可以感知小网页(210x160 像素)的原始像素和产生键盘和鼠标动作。MiniWob任务范围从简单的按钮点击到复杂的表单填写,例如,在给出特定指令时预订航班(图 1a)。

之前关于 MiniWob的研究已经考虑了能够访问 DOM 特定动作的架构,从而允许智能体直接与 DOM 元素交互而无需鼠标或键盘导航到它。DeepMind 的研究者选择仅使用基于鼠标和键盘的操作,并进一步假设该接口将更好地迁移到计算机控制任务,而无需与紧凑的 DOM 进行交互。最后,MiniWob任务需要单击或拖动操作,而这些操作无法通过基于 DOM 元素的操作来实现(参见图 1b 中的示例)。

与之前的 MiniWob研究一样,DeepMind 的智能体可以访问由环境提供的文本字符串字典,该字典被输入到给定任务的输入字段中(参见附录图 9 示例)。

下图为运行 MiniWob的计算机控制环境。人类和智能体都使用键盘和鼠标控制计算机,人类提供用于行为克隆的示范行为,智能体受过训练以模仿这种行为或表现出追求奖励的行为。人类和智能体尝试解决 MiniWob任务套件,其中包括需要单击、键入、拖动、填写表格等。

环境接口

如果想要智能体像人类一样使用计算机,它们需要接口来传输和接收观察结果和动作。最初的 MiniWob任务套件提供了一个基于 Selenium 的接口。DeepMind 决定实现一个可替代环境堆栈,旨在支持智能体可以在 web 浏览器中实现各种任务。该接口从安全性、特性和性能方面进行了优化 (图 1a)。

原来的 MiniWob环境实现通过 Selenium 访问内部浏览器状态并发出控制命令。相反,DeepMind 的智能体直接与 Chrome DevTools 协议 (CDP) 交互,以检索浏览器内部信息。

智能体架构

DeepMind 发现没有必要基于专门的 DOM 处理架构,相反,受最近关于多模态架构的影响,DeepMind 应用了最小模态特定处理,其主要依靠多模态 transformer 来灵活处理相关信息,如图 2 所述。

感知。智能体接收视觉输入(165x220 RGB 像素)和语言输入(示例输入显示在附录图 9 中)。像素输入通过一系列四个 ResNet 块,具有 3×3 内核,strides 为 2、2、2、2,以及输出通道(32、128、256、512)。这产生了 14×11 的特征向量,DeepMind 将其展平为 154 个 token 列表。

三种类型的语言输入任务指令、DOM 和任务字段使用同一个模块处理:每个文本字符串被分成 token,每个 token 映射被到大小为 64 的嵌入。

策略:智能体策略由 4 个输出组成:动作类型、光标坐标、键盘键索引和任务字段索引。每个输出都由单个离散概率分布建模,除光标坐标外,光标坐标由两个离散分布建模。

动作类型是从一组 10 种可能的动作中选择的,其中包括一个无操作(表示无动作)、7 个鼠标动作(移动、单击、双击、按下、释放、上滚轮、下滚轮)和两个键盘动作(按键、发出文本)。

DeepMind 从 77 名人类参与者那里收集了超过 240 万个 104 MiniWob任务演示,总计大约 6300 小时,并使用模仿学习和强化学习 (RL) 的简单混合来训练智能体。

实验结果

MiniWob上的人类水平性能

由于大部分研究通常只解决了 MiniWob任务的一个子集,因此该研究在每个单独的任务上采用已公开的最佳性能,然后将这些子任务的聚合性能与该研究提出的智能体进行比较。如下图 3 所示,该智能体大大超过了 SOTA 基准性能。

此外, 该智能体在 MiniWob任务组件中实现了人类水平的平均性能。这种性能是通过结合 BC 和 RL 联合训练来实现的。

研究者发现,虽然该智能体的平均性能与人类相当,但有些任务人类的表现明显优于该智能体,如下图 4 所示。

任务迁移

研究者发现,与在每个任务上单独训练的智能体相比,在 MiniWob的全部 104 个任务上训练一个智能体可以显著提升性能,如下图 5 所示。

扩展

如下图 7 所示,人类轨迹数据集(human trajectory dataset)的大小是影响智能体性能的关键因素。使用 1/1000 的数据集,大约相当于 6 小时的数据,会导致快速过拟合,并且与仅使用 RL 的性能相比没有显著提升。随着该研究将此基线的数据量增加到三个数量级直至完整数据集大小,智能体的性能得到了持续的提升。

此外,研究者还注意到,随着算法或架构的变化,在数据集大小上的性能可能会更高。

消融实验

该智能体使用像素和 DOM 信息,并且可以配置为支持一系列不同的操作。该研究进行了消融实验以了解各种架构选择的重要性。

该研究首先消融不同的智能体输入(图 8a)。当前的智能体配置强烈依赖 DOM 信息,如果删除此输入,性能会下降 75%。相反,视觉信息的输入对该智能体的影响不太显著。

如图 8b 所示,该研究移除了智能体使用环境给定的文本输入选项(任务字段)的能力。有趣的是,移除之后的智能体仍然能够解决涉及表单填写的任务,但它是通过 highlight 文本,并将其拖动到相关的文本框,以从人类轨迹中学会完成这个任务。值得注意的是,在原始 Selenium 版本的环境中智能体实现这种拖动操作并不简单。

图 8b 还展示了一个消融实验结果,其中智能体使用与特定 DOM 元素交互的替代动作。这意味着智能体无法解决涉及单击画布内特定位置、拖动或 highlight 文本的任务。

    推荐阅读
  • 突触名词解释(突触是什么意思)

    突触名词解释突触是指一个神经元的冲动传到另一个神经元或传到另一细胞间的相互接触的结构。突触是神经元之间在功能上发生联系的部位,也是信息传递的关键部位。在光学显微镜下,可以看到一个神经元的轴突末梢经过多次分支,最后每一小支的末端膨大呈杯状或球状,叫做突触小体。这些突触小体可以与多个神经元的细胞体或树突相接触,形成突触。从电子显微镜下观察,可以看到,这种突触是由突触前膜、突触间隙和突触后膜三部分构成。

  • 《守望先锋》对战局影响大招top一览 守望先锋对局战绩

    今天小编要为大家带来的是玩家“黑呦酱”分享的《守望先锋》对战局影响大招top一览,感兴趣的玩家赶紧一起来看看吧!守望先锋大招分为四类,控制类,自身BUFF类,辅助类以及伤害类,由于伤害类大部分使用大招时,本体无法进行有效杀伤,且控制类及自身BUFF类需要其他技能的配合,so,此间因素也要加入考量。

  • 运动后喝黑咖啡还能燃脂吗 运动时喝黑咖啡会加快燃脂吗?

    2、运动过程中身体脂肪会加速燃烧,从而具有一定减肥作用;而黑咖啡热量比较小,加上其中含有大量的咖啡因以及维生素、纤维素物质,适量喝可以促进人体肠胃蠕动,加速脂肪代谢分解,对减肥具有促进作用。

  • 斯威汽车质量怎么样(斯威质量好不好)

    2018年6月起,斯威“品质特工队”以四大火炉的重庆作为起点,途径海南、吐鲁番、格尔木三地,历时近一年进行了数十万公里极限环境适应性试验。极端干燥高温环境下,常见车内温度往往会狂飙到60℃以上,而在斯威G01的车厢里,却始终能够保持清新凉爽的状态。一整套严酷考验下来,斯威G01的性能表现完全得以充分认证。这样一算,斯威G01差不多完成了近百万公里的专业级严酷考验。

  • 春天兰花怎么养 春天兰花怎么养浇水

    白墨兰花哪个品种最好白墨兰花是墨兰的珍贵变异品种假鳞茎椭圆形,已有数百年栽培历史,流传至今,不下十数个品种,它叶色莹润、体态优雅、幽香静远、且抗病,白墨兰花比较好的品种一般分企剑和软剑两个品系。什么兰花开花最香兰花品种很多,按花香来排,在兰花界春兰居首,惠兰次之,随后便是建兰、墨兰和寒兰,春兰的花香味最正宗,持久性也极强。

  • 奔驰e300l前进挡总共有几个(你看了奔驰22款E300L升级这套原厂HUD抬头显示效果觉得怎么样)

    从行车安全的角度来考虑,加装一台HUD是非常有必要的。HUD的全称是HeadUpDisplay,中文翻译过来就是抬头显示器。今天星骏汇小陈通过以上的产品配件图了解,我们看到这台奔驰22款E300L升级HUD抬头显示所需要更换的配件有,抬显仪器,高配仪表盖板,高配仪表电脑,雨量传感器,空调管升级HUD抬头显示把仪表台上的那一块盖板换掉,换成高配的预留好显示器孔位的盖板,装上显示器,从而使仪表显示的内容投射到挡风玻璃上面。

  • 儿童葫芦丝表演(通城千人共奏葫芦丝)

    儿童葫芦丝表演香城都市报讯 10月27日,通城县隽水中学参加湖北省“黄鹤杯”美育节节目视频录制现场,七、八年级千名学生,同奏乐曲《龙的传人》。该校相关负责人介绍,本学期,每天下午预备铃响5分钟,七、八年级各班集体合奏葫芦丝。丝竹声声,已渐成校园一道靓丽的风景线。近年来,该校贯彻落实社会主义核心价值观,注重未成年人思想道德建设,坚持开设中华传统和特色民族特色教育课程,促进学生“德智体”全面发展。

  • 鸡娃时代孩子的成长之道(与其1岁就开始鸡娃)

    出生时大脑发育已经完成25%,1岁完成了50%,3岁完成了60%,6岁达到90%。现在小学虽然是零基础入学,取消了统一考试,但是它对学生的要求并没有降低。吃够了佛系养娃的亏,橙子家的老二断然不肯再佛系养了。北京卫视于2018年摄制的纪录片《起跑线》中,有一个7岁的北京女孩令人印象深刻。她的家庭,在北京三环内有一套房,一辆车。妈妈认为,孩子从小培养兴趣,靠的是父母的指引。

  • 环氧树脂的作用与用途(环氧树脂有什么作用与用途)

    环氧树脂的作用与用途具有优良的物理和电绝缘性能,强度高、收缩性低,耐腐蚀以及有高绝缘的优势,所以被称为万能胶。电器、电机绝缘封装件的浇注。从常压浇注、真空浇注已发展到自动压力凝胶成型。长时间接触胶水时,有人会有细微的皮肤过敏和细微瘙痒疼痛的情况,建议在运用时戴上防护手套,如果出现了这样的情况,需要用酒精擦洗,然后用清水冲洗干净。

  • 明月曾照江东寒剧情(明月曾照江东寒剧情介绍)

    明月曾照江东寒剧情剧情简介:美少女战清泓是武林副盟主战破敌之女,从小被父亲禁止涉及江湖事。十年一期的武林大会即将来临,战清泓瞒着家人偷跑下山,立志夺取武林盟主之位。战清泓与温宥也开始互生情愫,奈何最终被世俗礼法所阻碍。与此同时,江湖上风起云涌,战清泓发现自己自幼背诵的家训竟是人人趋之若鹜的第一神功《鹤羽剑法》。