机器人与人工智能爱好者论坛

 找回密码
 立即注册
查看: 7885|回复: 0
打印 上一主题 下一主题

谷歌DeepMind团队告诉你:人工智能是如何学坏的

[复制链接]

78

主题

80

帖子

451

积分

版主

Rank: 7Rank: 7Rank: 7

积分
451
跳转到指定楼层
楼主
发表于 2017-2-18 14:54:59 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

谷歌DeepMind团队告诉你:人工智能是如何学坏的


2017-02-15



很难想象,达到人类等级的人工智能会如何造福人类,同样也难以想象不恰当地使用它,会酿成什么样的恶果。

AI有做坏事的本领,在空战模拟器上,阿尔法人工智能程序在与美国空军退休上校吉恩李的较量中,获得完胜。此类例子已经不胜枚举。

所以,如何使用机器人是个大问题。即便你为机器人设定了一个目的纯良的任务,但机器人在实现目标的过程中,如何选择实现路径仍然是个问题,它会不会为达目的而不择手段呢?

因此,为考验AI在两难境地下如何做出策略选择,谷歌的DeepMind团队进行了针对性实验,实验中的两款游戏都是以博弈论的囚徒困境理论为基础开发的。

囚徒困境是指两个共谋犯罪的人被关入监狱,不能互相沟通。如果两个人都不揭发对方,则由于证据不确定,每个人坐牢一年;若一人揭发,而另一人沉默,揭发者立即获释,沉默者入狱五年;若互相揭发,则因证据确实,二人都判刑两年。由于囚徒无法信任对方,因此倾向于互相揭发,而不是同守沉默。这一经典理论说明了即便合作对双方都有利,但合作仍然是困难的。

DeepMind为此设计的第一款游戏名为“采集”。他们将一个以“收集水果”为目的的电脑游戏运行了4000万次,并要求两个AI互相竞争,看谁能收集更多的虚拟苹果。

他们发现,在有足够的苹果时AI还相安无事,但随着苹果减少,两个AI就有攻击性了。为了将对手踢出游戏,独吞所有苹果,它们开始使用激光束来攻击对手。

有趣的是,AI用激光束攻击对手获得成功的行为并不能直接获得奖励。它只是让对手在游戏中消失一会儿,以便自己可以收集更多的苹果。

如果两方AI都不使用激光束,理论上他们可以平分所有的苹果。这是“没那么聪明”的旧版本AI所作的选择。

随着谷歌团队测试形式的愈加复杂,DeepMind也变得更贪婪、更具侵略性和攻击性。

“在苹果相对丰富的环境中,彼此攻击的代价更大,因此AI会采用更温和的策略。在苹果较少时,AI击败对手独吞苹果的贪婪欲望就出现了。”

第二个游戏叫作“狼群”。这一次,有三个人工智能参与——它们中的两个扮演狼,另一个扮演猎物。

和前一个游戏不同的是,这个游戏鼓励合作。如果猎物被捕获时,两只狼在都在猎物旁边,他们都会得到奖励——不论哪一只抓获了猎物。

“这是捕猎有风险性的观点——一只独狼可以战胜猎物,但可能会因食腐动物的抢夺而丢掉这份战利品”,该团队在他们博客的文章中解释道。

“然而,当两只狼一同捕猎时,它们可以更好地对抗食腐动物,保护手中保护猎物,因此得到更高的回报。”

因此,在第一个游戏中,AI认识到侵略和自私可以获得最有利自己的结果;从“狼群”游戏中,它们也学习到,有时合作会对自己更有利。

通过以上实验,也让我们得出一个结论:AI会根据自己所处的环境进行抉择。

“在现实生活中,无论是合作还是相互攻击,都是复杂的行为。因此AI需要掌握执行一系列动作的先后顺序。”DeepMind团队在博客中写道。“我们将这一全新设定看作连续的社会困境,并利用深层强化学习训练的AI对其进行研究。”

我们应考虑到,虽然这些只是简单的、信息明确的电脑游戏,但在现实情况下,这些职责不同、利益冲突、相互竞争的人工智能系统,如果不能将各自的目标统合于人类利益高于一切的最高目标之下,后果将是灾难性的。

设想一下,交通信号灯的目的是让汽车减下速来,无人驾驶汽车的目标是找到速度最快的路线。但在二者合力下,想要保证安全和有效的交通,它们需要考虑彼此的目的才行。

DeepMind的研究团队表示:“这样的模型能够让我们在模拟系统中测试策略和干预措施。”如果一切顺利,未来人类对复杂的、多因素系统,如经济、交通或生态都能有深刻的把握。



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

QQ|Archiver|手机版|小黑屋|陕ICP备15012670号-1    

GMT+8, 2024-4-29 08:02 , Processed in 0.100064 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表