谷歌DeepMind团队告诉你：人工智能是如何学坏的

alice · 发表于 2017-2-18 14:54:59

谷歌DeepMind团队告诉你：人工智能是如何学坏的

2017-02-15

很难想象，达到人类等级的人工智能会如何造福人类，同样也难以想象不恰当地使用它，会酿成什么样的恶果。

AI有做坏事的本领，在空战模拟器上，阿尔法人工智能程序在与美国空军退休上校吉恩李的较量中，获得完胜。此类例子已经不胜枚举。

所以，如何使用机器人是个大问题。即便你为机器人设定了一个目的纯良的任务，但机器人在实现目标的过程中，如何选择实现路径仍然是个问题，它会不会为达目的而不择手段呢？

因此，为考验AI在两难境地下如何做出策略选择，谷歌的DeepMind团队进行了针对性实验，实验中的两款游戏都是以博弈论的囚徒困境理论为基础开发的。

囚徒困境是指两个共谋犯罪的人被关入监狱，不能互相沟通。如果两个人都不揭发对方，则由于证据不确定，每个人坐牢一年；若一人揭发，而另一人沉默，揭发者立即获释，沉默者入狱五年；若互相揭发，则因证据确实，二人都判刑两年。由于囚徒无法信任对方，因此倾向于互相揭发，而不是同守沉默。这一经典理论说明了即便合作对双方都有利，但合作仍然是困难的。

DeepMind为此设计的第一款游戏名为“采集”。他们将一个以“收集水果”为目的的电脑游戏运行了4000万次，并要求两个AI互相竞争，看谁能收集更多的虚拟苹果。

他们发现，在有足够的苹果时AI还相安无事，但随着苹果减少，两个AI就有攻击性了。为了将对手踢出游戏，独吞所有苹果，它们开始使用激光束来攻击对手。

有趣的是，AI用激光束攻击对手获得成功的行为并不能直接获得奖励。它只是让对手在游戏中消失一会儿，以便自己可以收集更多的苹果。

如果两方AI都不使用激光束，理论上他们可以平分所有的苹果。这是“没那么聪明”的旧版本AI所作的选择。

随着谷歌团队测试形式的愈加复杂，DeepMind也变得更贪婪、更具侵略性和攻击性。

“在苹果相对丰富的环境中，彼此攻击的代价更大，因此AI会采用更温和的策略。在苹果较少时，AI击败对手独吞苹果的贪婪欲望就出现了。”

第二个游戏叫作“狼群”。这一次，有三个人工智能参与——它们中的两个扮演狼，另一个扮演猎物。

和前一个游戏不同的是，这个游戏鼓励合作。如果猎物被捕获时，两只狼在都在猎物旁边，他们都会得到奖励——不论哪一只抓获了猎物。

“这是捕猎有风险性的观点——一只独狼可以战胜猎物，但可能会因食腐动物的抢夺而丢掉这份战利品”，该团队在他们博客的文章中解释道。

“然而，当两只狼一同捕猎时，它们可以更好地对抗食腐动物，保护手中保护猎物，因此得到更高的回报。”

因此，在第一个游戏中，AI认识到侵略和自私可以获得最有利自己的结果；从“狼群”游戏中，它们也学习到，有时合作会对自己更有利。

通过以上实验，也让我们得出一个结论：AI会根据自己所处的环境进行抉择。

“在现实生活中，无论是合作还是相互攻击，都是复杂的行为。因此AI需要掌握执行一系列动作的先后顺序。”DeepMind团队在博客中写道。“我们将这一全新设定看作连续的社会困境，并利用深层强化学习训练的AI对其进行研究。”

我们应考虑到，虽然这些只是简单的、信息明确的电脑游戏，但在现实情况下，这些职责不同、利益冲突、相互竞争的人工智能系统，如果不能将各自的目标统合于人类利益高于一切的最高目标之下，后果将是灾难性的。

设想一下，交通信号灯的目的是让汽车减下速来，无人驾驶汽车的目标是找到速度最快的路线。但在二者合力下，想要保证安全和有效的交通，它们需要考虑彼此的目的才行。

DeepMind的研究团队表示：“这样的模型能够让我们在模拟系统中测试策略和干预措施。”如果一切顺利，未来人类对复杂的、多因素系统，如经济、交通或生态都能有深刻的把握。

		自动登录	找回密码
密码			立即注册

谷歌DeepMind团队告诉你：人工智能是如何学坏的

站长推荐 /1