首页 / 资讯中心 / 交通百科/训练人工智能妥协

训练人工智能妥协

发布时间:2018-09-29 分类:交通百科

想象一下,你正坐在一辆自动驾驶汽车里,这辆车即将左转驶入迎面而来的车流中。汽车中的一个小系统将负责使车辆转弯,一个系统可能会加速或踩刹车,其他系统将装有探测障碍物的传感器,而另一个系统可能正在与路上的其他车辆进行通信。每个系统都有自己的目标,开始或停止,转向或直行,认识到潜在的问题,等等。但他们也必须共同努力实现一个共同的目标:在不造成交通事故的情况下转向交通。

人工智能

如果我们有一个认可机构的体系,我们如何为个别的认可机构构建奖励,从而使组合的系统表现良好?

从本质上说,人工智能系统中的人工智能就像上面的汽车例子,需要学习如何满足自己的目标,以及如何妥协,以便其行动将有助于满足群体目标。最重要的是,认可机构的制度需要考虑社会的喜好。与左转相比,行车中的乘客或人行横道上的行人的安全更为重要。

训练一个行为良好的人工智能

因为像繁忙的街道这样的环境是如此复杂,工程师不能仅仅通过编程让人工智能以某种方式行事来实现它的目标,人工智能系统需要在奖励制度的基础上学习正确的行为。每个人工智能都有一个奖励,因为它的行动和其他人工智能的行动。随着世界的不断变化,回报也必须不断变化,认可机构不仅需要跟上自身目标的变化,还需要跟上整个系统不断变化的目标。

以奖励为基础的学习系统的想法是大多数人都能想到的,任何一个养狗的人都经历过,当他们的宠物意识到自己会得到款待时,他们的宠物更有可能表演一种诡计,对人工智能的奖励也是类似的。

在设计人工智能时经常使用的一种技术是强化学习,在强化学习中,当人工智能系统采取某种行动时,它会收到正反馈或负反馈。然后,它试图优化自己的行动,以获得更多的积极回报。然而,奖励不能仅仅被编程到人工智能中,人工智能必须与其环境互动,以了解哪些行动将被认为是好的、坏的或中立的。同样,这种想法类似于一只狗学习技巧可以赢得它的待遇或赞扬,但行为不端可能导致惩罚。

培训认可机构系统

博弈论帮助研究人员了解什么类型的奖励会引起其他自私自利的参与者之间的合作,或者在这种情况下,会出现理性的人工智能系统。一旦一个ai人工智能计算出如何最大化它自己的奖励,什么会诱使它按照另一个AI行事?为了回答这个问题,可以求助于一种叫做机制设计的经济学理论。

机制设计理论是一种诺贝尔理论,它使研究人员能够确定一个由多个部分组成的系统如何实现一个总体目标。这是一种逆博弈理论。如何设计互动规则,例如分配奖励的方式,使个别机构的行为有利于全系统和全社会的偏好?除其他外,机制设计理论已经应用于拍卖、电子商务、法规、环境政策以及人工智能等领域的问题。

人工智能系统的工作与机制设计理论的不同之处在于,后者需要某种机制或管理人员来监督整个系统。在自动化汽车或无人驾驶飞机的情况下,内部机构必须共同努力,以实现集团目标,而没有一个机制作出最终决定。随着环境的变化,外部奖励也会发生变化。而当系统内的人工智能意识到他们想要做出某种改变来最大化他们的回报时,他们将不得不彼此沟通,改变整个自治系统的目标。