首页 / 资讯中心 / 交通百科/AI人工智能的认知偏差与价值取向

AI人工智能的认知偏差与价值取向

发布时间:2018-10-11 分类:交通百科

人工智能安全的核心在于价值调整问题:我们如何教人工智能系统按照人类的目标和价值行事?

许多研究人员利用逆向强化学习等技术,与人工智能系统互动,向他们传授人类价值观。理论上,通过逆向强化学习,人工智能系统可以了解人类的价值,以及如何通过观察人类行为和接收人类反馈来最好地帮助他们。

人工智能

但是,人类的行为并不总是反映人类的价值,而且人类的反馈往往是有偏见的。当我们放松的时候,我们会享受健康的食物,但是当我们压力很大的时候,我们需要油腻的食物来提供能量,我们不仅没有按照我们的价值观生活,而且我们的许多价值观相互矛盾。例如,我们需要8小时的睡眠,但我们会有规律地减少睡眠,因为我们也需要努力工作、照顾孩子和保持健康的人际关系。

人工智能系统也许可以通过观察人类学到很多东西,但由于我们的不一致,一些研究人员担心,用逆向强化学习训练的系统将从根本上无法区分与价值一致的行为和不一致的行为。当人工智能系统变得更强大时,从观察人类推断出错误的价值观或目标可能导致这些系统采取有害行为,这可能变得特别危险。

区分偏见和价值观

人工智能研究员探讨了逆向强化学习在向人工智能系统教授人类价值观方面的局限性,特别揭示了认知偏差是如何使人工智能难以通过交互学习来了解人类偏好的。我们希望一个代理人追求一些目标,这一套目标与人类的目标一致。接下来的问题是,如果代理人只是观察人类,并试图通过他们的行为来实现他们的目标,那么问题也将出现,会产生多大的偏见呢?

在某些情况下,认可机构将能够理解常见偏见的模式,一个常见模式的例子就是时间不一致。时间不一致是指人们的价值观和目标会随着你问他们的时间而改变,换句话说,在你希望你未来的自己做什么和你未来自己喜欢做的事情之间存在着矛盾。

时间不一致的例子比比皆是,首先,如果你在睡前问他们,大多数人重视早起和锻炼。但是到了早上,当外面又冷又黑的时候,他们常常看重床单的舒适感和放松的好处。从早起到戒酒、健康饮食和省钱,人们往往对未来的自己期望更高,但这可能不是他们未来的自己愿意做的事。

有了系统的,可预测的模式,如时间不一致,逆向强化学习可以取得进展与人工智能系统。但我们的偏见往往不那么明显,一般来说,解读哪些行为与某人的价值观一致,以及哪些行为源于偏见是困难的,甚至是不可能的。

假设你答应打扫房子,但你在最后一刻得到了与朋友聚会的邀请,你会放弃打扫房子而去参加朋友的聚会,这是一种偏见?这会对一个只使用逆向强化学习来训练AI人工智能造成很大的困扰,它如何决定什么是偏见和值?

学习正确的价值观

尽管存在这个难题,理解人类的价值和偏好对于人工智能系统是至关重要的,而开发人员在培训他们的机器学习这些偏好方面有着非常实际的兴趣。

如今,一些流行的网站已经开始使用人工智能来学习人类的喜好。例如,通过youtube和Amazon,机器学习算法可以观察你的行为,并预测你下一步想要什么。但是,尽管这些建议往往是有用的,但它们却产生了意想不到的后果。

在观看特朗普集会的视频以了解他的选民吸引力之后,我们有可能在“自动播放”队列中看到白人民族主义宣传和否认大屠杀的视频。这点可以让我们意识到,YouTube的算法经过优化以保持用户的参与度,可以预见的是,随着用户观看更多的视频,它会提供更多的极端内容,这导致该网站为“伟大激进主义者”。

YouTube算法中的这种价值偏差预示着与更先进的人工智能系统交互学习的危险,不是优化先进的人工智能系统来迎合我们的短期欲望和我们对极端的吸引力,设计师必须能够优化它们来理解我们更深层的价值和提高我们的生活。

我们将希望人工智能系统能够比人类更好地通过我们的决定进行推理,理解我们做出有偏见的决定时的情况,并“帮助我们更好地追求我们的长期偏好”。然而,这将意味着,人工智能建议的事情似乎是不好的,人类乍一看。

你可以想象一下,一个人工智能系统会对商业计划进行一次精彩绝伦的、违反直觉的修改,而人类却发现这是荒谬的。为了帮助人们在这些场景中理解人工智能,科学家研究了人工智能系统如何以人类可以理解的方式进行推理,并最终改进了人类的推理。

有一种概念叫做因素认知,就是把复杂的任务分解成小的、可以理解的步骤的想法,虽然目前还不清楚认知是如何取得成功的,但有时候人类可以把他们的推理分解成小的步骤,通常我们依赖于直觉,而直觉则是更难分解的。