《人机对齐∶如何让人工智能学习人类价值观》 [美]布莱恩·克里斯汀 著唐璐译 湖南科学技术出版社出版
■唐山
多伦多大学经济学家甘斯希望女儿能照顾小弟弟上厕所,他想出一个“好办法”:每帮小弟弟上一次厕所,女儿可得一块糖果。女儿很快找到窍门:不断给小弟弟喂水,让他多上厕所,以得到更多糖果……
甘斯遭遇了典型的“对齐问题”:行动与目标不统一,“需要A却奖励了B”。
在人类史上,“对齐问题”一次次带来困扰,随着人工智能(以下简写为AI)出现,“人机对齐”成了难题——AI可打败世界上最好的棋手,我们却不知它是如何做到的。随着人类越来越依赖AI,风险真地可控吗?我们会不会落入科幻短片《战争的最后一天》里的悲惨境地(人类灭绝,AI仍在自动作战)?
《人机对齐》是一本不太好读的书,全书分三篇,即“预警”“自主”与“示范”,彼此关联不大,甚至同篇各章间的逻辑关系亦不明显。或因本书旨趣不在于说明“AI已发展到什么地步”,而在于由此引发的思考。
从这个意义看,《人机对齐》不只是科普书,更是通识书,人人都有阅读它的必要,它应成为现代常识的组成部分——不了解这些常识,你会被现代社会“开除”。
不是技术问题,而是社会问题
玩家知道,所有电子游戏都有“暗关”。比如玩《魂斗罗》,可反复打较低级的关,刷分换武器,则过难关会更容易;再如老版《FIFA》,下底传中必进,借此大招,操纵中国队也能拿世界杯……许多“暗关”来自设计失误,不论程序员们怎样小心,也无法完全避免类似失误。
随着AI发展,失误变得越来越不可容忍。
2015年,来自海地的网络开发者阿尔西内利用谷歌照片软件,在网上分享了自己和亲友的照片,让阿尔西内震惊的是,他们的照片竟被归类为“大猩猩”。谷歌的技术团队迅速响应,可几个小时后,问题依旧,谷歌只好关闭了“大猩猩”这个标签。直到三年后,用谷歌搜大猩猩,仍看不到任何一张照片。
软件是怎么“学会”种族主义的?实际上,技术错误从来不只是技术本身的问题。19世纪照相最多的美国人不是林肯、格兰特,而是弗雷德里克·道格拉斯,一位废奴主义者,他发现,照片上的黑人特别难看,因胶片均依白人模特校准,形成化学配方,拍出的黑人则千人一面。
解决该问题似乎不难,多找黑人模特即可。同理,增加黑人照片,谷歌软件的识别率会更准确。
然而,结果适得其反:IBM用AI开发了招聘软件,输入100份简历,选出5份最好的——几乎都是男性。程序员关闭了性别选项,却无法改变结果。因为AI会通过关联信息,自动将女性排除。比如,它会把“上一年没有工作”的简历标注为不合格,于是所有刚生育的女性均遭拒。类似的标签无所不在,改不胜改。程序员们最后发现,他们面对的不是技术问题,而是社会问题——人类社会处处都有性别标签,通过这些标签,女性总会被辨认出来,被视为缺乏竞争力者。单靠技术,已无法解决。
无法突破的“不可能性原理”
上世纪80年代,美国司法开始用AI判断囚犯可否假释,2000年时,已有26个州如此进行。研究者发现了其中漏洞:黑人初犯者被评为高风险,但他们不再犯罪的可能性是白人的两倍,白人初犯者反而被评为低风险。
这一发现引发舆情激荡,人们纷纷要求去掉该系统的种族标签,结果却发现,落入IBM招聘系统一样的困境——假释系统会通过其他标签,重新进行种族筛选,但如把相关标签全撤掉,AI又会失去判断能力。
研究者们发现,一切判断都存在着“不可能性原理”,这在数学上得到了证明:没有标签,就不可能做判断;有标签,又必然有偏见,“原则上,任何风险评分天生都会被批评为有偏见”。
AI开发无法绕过两大难题:
首先,道德无法客观化。道德选择没有固定标准,会随情境的改变而变,人类常常无法回答“什么是真正重要的”,AI更做不到。
其次,精准预测无法减少风险。人类喜欢更精准的预测,从而掉进“预测陷阱”,事实上,造成结果的原因是多元的,预测再精准,也无法影响结果。美国芝加哥市曾列“危险拥枪者”名单,据说他们比其他人死于凶杀案的比例高232倍,即使如此,他们被枪杀的概率也仅有0.7%,如何从1000人中找到这7个人呢?折腾1000人,真能挽救这7个人?在《反对预测》中,作者哈科特写道:男司机易出事故,可是严查男司机,会鼓励女司机变得更鲁莽,车祸率并未下降。
不给答案,因为根本给不出答案
AI模仿了人脑的工作方式,通过大量案例训练,总结出“经验”,获得判断力。可这些“经验”正确吗?比如一款AI诊病软件,研究者惊讶地发现,它得出的“经验”是:肺病患者如有哮喘病,属低风险。胸痛有好处。
心脏病有好处。
超过100岁有好处。
这些逆天的“经验”,可能来自相关患者属高风险,会被特殊照顾,但AI不知全过程,只知他们经特殊照顾后,痊愈率较高,便认定“有好处”。
AI的大多数“错误经验”之所以不可知,是因为它模仿了人类的神经系统,作为人类,我们自己也不知自己有多少“错误经验”,以及它们形成的原理。通过可视化技术,研究者们发现,AI的底层充满荒谬。
比如判断“什么是哑铃”,AI会把手臂、肉色的、超现实的图案都算成哑铃,试错后,这些“经验”被否定,但并没消失,而是滞留在底层。人类会情绪失控,我们能模糊地感到,这与底层“经验”相关,那么“把哑铃误认作手臂”会不会带来长期影响?
AI正深入生活的方方面面,自动驾驶、医疗、城市管理、战争……谁能保证AI的底层经验不犯错?人类从没真正掌控好自我,引发一次次灾难,我们真能掌控好AI吗?
本书第二篇、第三篇将焦点转向AI发展史,描述了研究者们的突破历程,包括从单任务转向多任务,用单一AI在不同游戏中取胜;从外部激励转向AI自我激励;通过模仿、逆强化学习等,使AI更强大……
然而,更强大的AI不等于“人机对齐”,AI实际上在“强制执行自己有局限的理解”,它的目的未必是人类的目的。
当然,在牛津大学教授博斯特罗姆等激进进化主义者看来,这些都不是问题。他计算出,未来星际文明非常强大,今天耽误的每一秒,都相当于失去将来的100万亿人的生命,每向未来世界前进1%,都等于技术加速1000万年。因此即使AI有风险,也应全力推动。
研究者施莱格里斯则说:“如果有一个神奇的按钮,可以把人类变成一样的为幸福而优化的笨蛋,他们会按下它……几年前,我也鼓吹这样做。”但现在,他的看法改变了:“我认为不应该按那个按钮。”
对此,《人机对齐》没给出答案,因为根本给不出答案。
我们乃至历史,也许都是“AI”
虽然本书用大量篇幅在讲述AI发展的细节,但我更喜欢的,还是书中的“跑题”部分——为强化AI,研究者深入研究了人类自身智能的产生过程,得出的见解振聋发聩:我们每个人可能都是世界训练出来的“AI”。
人类拥有智能,源头是趋利避害的本能,在多巴胺的简单奖励下,塑造出复杂行为——并不是做对了,多巴胺才奖励快感,而是做新奇的事时,多巴胺才会给奖励。
所以,人类喜欢刺激、冒险和挑战。不断尝试,就有了更多试错机会,通过试错,人类智能得以成长。人类生活的世界就是“有效的课程”,它像一个大型游戏。这就可以理解,为什么电子游戏让人难以自拔,因为它比现实世界的奖励更直接。
在现实世界中,人在进化,决定成败的核心因素,是“奖励的稀疏性”。比如为了让人类学会飞,让人从悬崖往下跳,不会飞便摔死——这并非聪明的办法。在会飞与不会飞之间,有无数环节,如在每个环节都设置奖励,人类最终就能学会飞;如奖励太稀疏,从不会飞直接跨越到飞,必然失败。正如眼睛,是经四五十次进化才完成的。在书中,一位学者开玩笑说,要么让自己的孩子学会中文,要么就不给饭吃,孩子的母亲明智地拒绝了这个建议。
作者本想说明研究者通过改变稀疏性,提高AI能力,却给读者一个全新的看世界的视角:人类文明的本质就是一个奖励结构的故事。沿着这一思路,我们会推演出一个完全不同于以往“思想——行动——改变”的历史解释的结论,推动进步的力量是多元的,不论个体,还是群体,都沿着稀疏性向密集的方向发展,决定历史的关键因是稀疏性,而非想法、技术、制度或人物。
由此带来新的认知危机:如果人是受造物,那么自由是什么?
在书中,著名思想史学者斯金纳指出,在稀疏性面前,人与老鼠相同。当记者问他:“自由意志还有位置吗?”斯金纳回答:“它还有虚构的位置。”哪怕只为与这句话相遇,《人机对齐》就值得一读。