首页 / 资讯中心 / 交通百科/人工智能自动驾驶汽车深度强化学习的人工辅助训练

人工智能自动驾驶汽车深度强化学习的人工辅助训练

发布时间:2018-08-07 分类:交通百科

在控制论自动驾驶汽车研究所,我们正在利用人体训练来帮助进行自动驾驶汽车人工智能的驾驶训练,有各种各样的方法来教自动驾驶汽车的人工智能有关驾驶任务的知识。

首先,人工智能开发人员可以尝试直接编程的人工智能关于如何驾驶汽车

这包括识别各种驱动算法,并编写实现这些算法的编程代码。不幸的是,工作量非常大,可能需要很长的时间来做,而且代码涵盖驾驶的所有方面和无数的驾驶情况的可能性是有问题的。因此,这种形式的“教学”通常是为人工智能的核心在驾驶任务,然后使用其他技术来加强它。

第二,通过直接教授来学习

在这种情况下,人工智能几乎就像一块白板,被开发用来观察人类的行为,然后尝试模仿这些动作。这可能很方便,但它也常常缺少驾驶任务的上下文。换句话说,人类驾驶员可能会告诉人工智能如何转动轮子或如何快速启动,但是人工智能不知道这些动作应该发生在什么环境中。

第三,让人工智能尝试驾驶汽车,然后有某种形式的自校正反馈,人工智能使用相应的调整,这是流行的使用汽车驾驶模拟

你设计的人工智能,使它能够驾驶模拟汽车,你设定模拟的汽车不应该离开模拟的道路。人工智能试图驾驶模拟汽车,当它离开模拟道路时,它将自己指向码头。它的目标是努力得分,而不是失去分数。因此,它逐渐联合起来,不再驶离公路。它是根据一组约束或限制,以及某种奖惩制度,通过自我修正来做到这一点的。

人工智能

这种方法在现实世界中并不是很有效,因为你不希望一辆真正的汽车不断地离开路面或撞到墙壁上,所以这是通过模拟来实现的。一个模拟的好处是你可以让它运行几百次,数千次,甚至数百万次。为了让人工智能捕捉到该做什么,模拟车可以不停地运行,可以根据需要提供尽可能多的模拟实例。

机器学习是来这里玩的,一个人工神经网络可以被输入数百、数千或几十万张汽车背面的图片,并逐渐设计出汽车从后面看上去是什么样子的图案。这有助于自动驾驶汽车的摄像头,因为当汽车行驶时拍摄到图像时,神经网络可以很容易地识别出什么是自动驾驶汽车前面的一辆汽车,什么可能不是一辆汽车。从某种意义上说,这种形式的机器学习需要进行大量的观察(查看汽车后部的图片),然后找出能够在这些图片中找到关键方面的模式。

另一种学习驾驶任务的方法是让人工智能试着驾驶汽车,然后对人工智能系统进行人工解说

一名人类“乘客”向人工智能提供反馈,然后人工智能根据提供的反馈进行调整。一些人称这种反馈为“批评”,人工智能被设置为深度强化型学习者。这被认为是“深刻的”,因为批评是作为更高级学习方面的一部分而发生的,它被认为是一种“强化”的形式,因为它建议人工智能要么多做点什么,要么少做点什么。它加强了正确的行为,并且可以说加强了对不当行为的避免。

人工智能自动驾驶汽车也可以做到这一点

实时反馈(或批评)被传达到人工智能深层强化学习系统,以提高人工智能的驾驶技能。反馈需要及时完成,并在一定程度上与驾驶过程中的驾驶任务的展开联系在一起,反馈需要明确,重点放在驾驶任务的性质上。

在反馈过程中,衡量学习者的表现也是很重要的。您希望确保人工智能不会变得过于依赖反馈。这可能会成为培训的意外结果,即人工智能系统开始对人类训练师过度适应。自动驾驶汽车的人工智能显示了一个高维的状态空间,这意味着当你考虑到驾驶汽车所涉及的所有决策因素时,会涉及到许多维度。我们没有使用大量的培训数据来尝试和提供完整的指导,而是通过使用人力培训师来加强培训。在进行了其他形式的训练后,他们在人工智能内部自我调整的过程中提供了帮助。

对于人工智能系统,这里有一些关于反馈提供的方面,这些方面对于人员培训的设计是值得注意的:

1、反馈太少

人类训练师必须判断给人工智能自动驾驶汽车提供多少反馈。太少的反馈可能是不好的,因为人工智能没有得到它所需要的,以提高驾驶任务。

2、反馈太多

人类训练师在给出过多的反馈时必须小心谨慎。除了它在学习方面把人工智能弄得乱七八糟,还有另一个危险,那就是人工智能过度依赖于人的训练。

3、破坏性反馈

这些反馈可能会无意中干扰人工智能,如果人工智能正在确定一个行动计划,而反馈发生了,人工智能可能无法完成该行动计划,或者从驾驶任务所需的元素上分散注意力。

4、无关反馈

为了控制无关的反馈,我们限制了一组反馈语句,这些反馈语句由人类训练师提供。不可否认的是,这并不是真实世界的方式,因为一个人训练另一个人可能像他们想要的那样无关紧要,但即使是人类学习者,他们也可能很难弄清楚什么反馈是针对任务的,哪些反馈对任务没有影响,我们通过有一个严格的反馈可能性列表来防止这种情况的发生。

5、不一致反馈

不一致反馈甚至冲突反馈的潜在可能是人工智能系统的一个难点。假设人类训练师说加速时,采取一个曲线,但后来的人说,放慢时,采取相同的曲线。人工智能如何看待这种看似不一致或相互矛盾的反馈呢?我们有人工智能系统向人类训练师表明,所提供的反馈似乎不一致,因此至少提醒人类训练师注意该方面(如果人类训练师确实没有必要不一致的话,那么人类训练师就可以进行调整)。

6、适当的、贡献的、及时的反馈

其目的是让人类培训师能够向人工智能系统提供适当、贡献和及时的反馈。要做到这一点,需要有精通这方面培训并认真尝试进行培训的人力培训师。

为自动驾驶汽车的人工智能提供人员培训是快速提高自动驾驶任务人工智能能力的一种手段。它并没有取代教人工智能开车的其他方法,相反,它被用来加强其他技术。为这个目的设计人工智能是一个额外的挑战,而不是通常人工智能会做的事情。它包括使战术和战略人工智能驱动元素准备好接受反馈,并能够根据提供的反馈进行调整。

尽管我们都在试图走向人工智能自动驾驶汽车,这是真正的自动驾驶汽车,通常被称为第5级,这是自动驾驶汽车的最高水平,指的是一种自动驾驶汽车,能以人类能够驾驶的任何方式驾驶汽车,想象一下,如果我们不仅通过使用人类训练器来教授人工智能,而且假设有一天我们有人工智能自动驾驶汽车,教人类驾驶。