Meta开发出懂谈判的人工智能,可“忽悠”人类玩家
·游戏《外交》中,忽悠人工智能Cicero具有对他人的出懂信仰、目标和意图进行推理的谈判能力,可以通过表现出同理心、工智使用人类语言交流并建立人际关系获胜。人类
Meta的忽悠人工智能团队(AI)11月22日宣布开发出Cicero,第一款在战略棋盘游戏《外交》中打出人类级别表现的出懂人工智能,这款游戏需要深厚的谈判人际谈判技巧。
早在1997年深蓝在国际象棋比赛中击败加里·卡斯帕罗夫之前,工智棋盘游戏就已经成为衡量人工智能成就的人类一个有用指标。2015年,忽悠AlphaGo击败围棋大师李·塞多尔,出懂将此类AI带到一个新的谈判高度。象棋和围棋都遵循一套相对清晰的工智比赛规则,但这些单纯的人类对抗性环境不需要AI与一同参与的玩家有语言交流。Cicero则可以在特定环境下,通过对话说服玩家、建立关系,从而获取胜利。
游戏《外交》的画面。
Cicero可能比人更会聊天
人工智能领域的一个主要长期目标是建立能够用自然语言与人类进行规划、协调和谈判的智能体。尽管目前模仿人类语言的模型取得了很大进展,但有效的AI谈判必须超越这一点,需要了解伙伴的信念、目标和意图,规划符合多人参与的联合行动,并有力地传达这些建议。
《外交》可能是最适合AI进行语言学习的培养皿之一,这款游戏很大一部分玩法涉及社交技能,玩家在游戏中扮演不同国家进行合作对抗,类似简化版的《文明》、《三国志》或《欧陆风云》。这是一个涉及合作和竞争的战略游戏,强调七个玩家之间的自然语言谈判和战术协调。AI必须表现出同理心,使用人类的语言交流,建立人际关系才能获胜,这对AI玩家来说是一项艰巨的任务。
考虑到这一点,Meta提出:“我们是否可以建立更有效、更灵活的AI,他们是否可以使用语言进行谈判、说服和与人合作,以实现与人类类似的战略目标?”
根据Meta的说法,答案是肯定的。Cicero通过《外交》学习了自己的技能,随着时间的推移成为游戏高手。Cicero将语言模型的规划和强化学习算法相结合,可以通过对话推断玩家的信念和意图,并根据其计划生成对话。
在《外交》游戏的40场匿名在线比赛中,Cicero的平均得分是人类选手的两倍多,在72小时的比赛中,它发送了5277条信息,在不止一场比赛中排名前10%。
AI也要学习“黑暗森林”法则
此前,AI的成功主要体现在纯粹的对抗性环境中,如国际象棋、围棋和扑克。在这些环境中,与对手交流没有价值,AI可以不断和自己进行游戏来学习,即通过具有足够计算和模型能力的自我游戏能力来解决问题。
但《外交》并不一样,在这款模拟各个国家进行合作对抗的游戏中,每个玩家都处于《三体》作者刘慈欣所说的“黑暗森林”法则中,玩家彼此之间并不信任。任何只考虑一时利益而不考虑人际关系的行为都将招致怀疑。哪怕是在没有语言交流的版本中,如果AI自我学习到与潜在人类盟友的规范和期望不符的策略,也同样发挥不佳。
游戏中的信息通常涉及协调精确的计划,任何沟通失误都可能导致失败。AI发送的每一条消息都必须基于上下文的对话历史、游戏状态和目标来规划。如果信息不准确,人类可能会要求AI解释其错误,这是一项更具有挑战性的任务,可能会导致进一步的错误。此外,重复的消息传递会产生反馈循环,例如,语言模型模仿其自身先前消息的风格,发送简短或不连贯的消息,这将增加未来此类消息在游戏中出现的可能性。
《外交》中的每一轮行动都是在谈判之后同时发生的。要想成功,AI必须考虑到玩家可能不信守诺言的风险,或者其他玩家可能怀疑自己信用的风险。因此,对他人的信仰、目标和意图进行推理的能力,以及通过对话说服和建立关系的能力是《外交》中必须掌握的技能。
“可控对话模式”是Cicero的核心
对此,为了培养Cicero,Meta将用于战略推理(类似于AlphaGo)和自然语言处理(类似于GPT-3)的人工智能模型整合在一起,放入一个AI代理中。在每场比赛中,Cicero都会查看游戏板的状态和对话历史,并预测其他玩家的行为。它可以计划玩家如何协调以实现他们的共同利益,并将这些计划转化为自然语言信息,也就是人类可以理解的语言。
Meta将Cicero的自然语言技能称为“可控对话模式”,这是Cicero的核心所在。Cicero从网络上抓取大量互联网文本,并从中提取可用信息构建对话。为了建立一个可控的对话模型,研究人员从一个有27亿参数的语言模型开始培养AI,该模型在互联网文本上进行了预训练,并针对40000多人进行了微调。
由此产生的模型掌握了游戏的复杂玩法,且很难被人类识别出来。Meta说:“例如,Cicero可以推断,在游戏后期,它需要取得某个特定玩家的支持,然后制定策略以赢得该玩家的青睐,它甚至可以从其他玩家的视角出发,看到风险和机会。”
但Cicero目前仍只能协调玩家在当前回合的行动。它没有能力模拟对话在游戏的长期过程中如何影响与其他玩家的关系。换言之,AI可以通过预测整局比赛走势制定发言计划,但却很难预测发言后对游戏内人际关系的长期影响。尽管研究人员用一套过滤器筛选出某些错误信息来维持文本的正确率,但AI还是会偶尔犯错。考虑到这一点,下一步Meta可能会为Cicero部署更具战略性的对话能力。不过,这些错误并未让其他玩家怀疑自己的对手或友军是人工智能。
Cicero在游戏中与人类对话。
至于更广泛的应用,Meta表示,Cicero研究可以“缓解人类与AI之间的沟通障碍”,例如保持长期对话以教授某人新技能。它还可以为电子游戏提供动力,让NPC(非玩家角色)可以像人类一样说话,了解玩家的动机并在游戏过程中进行调整。
但此项技术也被视作双刃剑。它可以用来操纵人类,通过模仿人类并根据上下文发言,以危险的方式欺骗人类。对此,Meta希望研究人员能够“以负责任的方式”构建代码,并表示已采取步骤检测和删除“这个新领域中的有害信息”,这可能是指Cicero从摄入的互联网文本中学习到的对话,这对于大型语言模型来说是一个风险。
目前Meta的Cicero研究发表在《自然》杂志上,标题为“通过将语言模型与战略推理相结合,在《外交》游戏中进行人类水平的游戏”。
(责任编辑:综合)
-
》栏目视频记者 李琳:一套家用储能设备,可以简单地想象成是一个超大号的充电宝。设备一端用控制器连接着几组储能电池,另一端则是用逆变器连接着电网。很多国家实行峰谷电价,这样的设备可以在电价低的时间段充电 ...[详细]
-
惠民保“一城多险”模式面临挑战背后:消费者看中实力,保司为规模保费努力追求“保本微利”
每经记者 袁园 每经编辑 廖丹 11月30日,“北京京惠保”保障将到期并停售,历史保单的后续服务仍将由“北京京惠保”公众号提供。这意味着,北京地区的“一城多保”模式将结束,原有的两个惠民保产品将仅剩“ ...[详细]
-
11月已有22家上市公司收立案告知书:涉嫌操纵市场、内幕交易、合同诈骗......
11月25日,002168.SZ)公告收到来自中国证监会的立案告知书,11月还未过完,已有22家上市公司披露了“立案告知书”公告,频率上远高于过去几个月。其中缘由为涉嫌信息披露的违法违规最多,其他如涉 ...[详细]
-
炒股就看,权威,专业,及时,全面,助您挖掘潜力主题机会!11月28日,有传闻称,DPU数据处理器)流片制作成功且已经获得订单。对此,左江科技证券部工作人员回应中国证券报记者时指出,公司DPU已完成封装 ...[详细]
-
近日,多家车企对旗下新能源汽车产品进行了价格调整。11月23日,针对极氪汽车是否会跟进调整售价一事,极氪智能科技副总裁赵昱辉回应澎湃新闻记者称:面对复杂的市场价格体系变化,极氪不会跟风做价格调整,作为 ...[详细]
-
第七届复旦首席经济学家论坛于2022年11月26日在上海举行。中国社会科学院学部委员余永定出席并演讲。余永定表示,2022年我国财政收支缺口会非常明显。他认为,当前我国需要采取扩张性的财政政策。由于经 ...[详细]
-
Q:异物误服如何处理?A:婴幼儿把物品放入口中是正常现象,但是要做好防护,坚果类食物是引起误吸最多的,在给孩子吃的时候一定要注意安全。如果发生异物误服,对于年龄较小的小婴儿,可以采取拍背急救,一岁以上 ...[详细]
-
来源|政知圈 撰文|李岩中央纪委国家监委网站11月28日发布通报称,此前被查的国家开发银行河南分行原党委书记、行长傅小东被“双开”。视组织多次挽救于不顾纪委通报指出,傅小东从未树立理想信念,视组织多次 ...[详细]
-
“赚2万变亏7000元”,富荣中短债1日跌12%,发生了什么?
来源:德林社 一只规模近50亿的债基,一日突然大跌12%,基民都被整懵了!天天基金网数据显示,11月21日,富荣基金旗下的一只债基富荣中短债当日净值大跌12%,基金单位净值直接跌到了0.8805元。此 ...[详细]
-
科学认知,早期干预自闭症是一组以社会交往障碍、狭隘兴趣与刻板行为为主要特征的发育障碍性疾病,一般起病于3岁之前。也有20-30%的自闭症儿童在早期发育正常,在21月龄左右会出现语言和行为的倒退。很多家 ...[详细]