AI对齐:让人工智能拥抱人类的价值观
        来源:澎湃新闻    作者:editor    发布时间:2024-02-02

       布莱恩•克里斯在其著作《人机对齐》中,为我们描绘了一个与日俱增的现代困境。随着人工智能技术的迅猛发展,我们好似置身于一部现代版的“魔法师学徒”的故事中。如同初出茅庐的巫师,我们召唤出强大而不可知的力量——人工智能。我们给它下命令,期望它既能自主运作又能绝对服从。但当我们意识到指令的不完整或不精确时,又陷入惊慌失措,拼命阻止它,担心自己的智慧不慎唤出了某种无法控制的怪物。

《人机对齐》,布莱恩•克里斯汀 著,唐璐 译,湖南科学技术出版社2023版

       这种情境引发了一系列问题:如何防止人工智能偏离我们的预期,造成灾难性的背离?我们该如何确保它能够理解并遵循我们的规范和价值观?最关键的是,我们怎样才能确保人工智能按照我们所期望的方式行动?这就是所谓的“人工智能对齐问题”(the AI alignment problem)。它目前已经超越“人工智能安全”(the AI safety),成为人工智能领域中最为核心和紧迫的议题之一。

       那么,究竟什么是“人工智能对齐”?为什么这个概念在当今世界如此重要?让我们先放下技术细节,转而关注一个之前的热点新闻。如果让我来评选2023年度人工智能十大事件,“ChatGPT之父”山姆·奥特曼和OpenAI董事会的“宫斗剧”一定会名列榜单。回溯到2023年11月17日,OpenAI这家举世闻名的人工智能初创公司突然宣布解雇其CEO山姆·奥特曼。随后的5天里,经历了一系列复杂的政治纷争,被罢免的奥特曼又重返高位。这场发生在硅谷的内斗,被外界广泛视为人工智能领域的“灵魂之战”。

       争端背后,其实折射出对人工智能未来两种截然不同的视角。一方面是我所称的“人工智能技术加速主义”,代表人物就是山姆·奥特曼。他们主张无条件加速人工智能技术的创新发展,并快速推出创新内容来颠覆社会结构,让人类随着技术的进步而进化。另一方面则是“人工智能对齐主义”,这一派的代表人物是要把山姆·奥特曼赶出董事会的首席科学家伊利亚·苏茨克维。他们认为,人工智能虽然能力强大,但在道德和伦理层面仍然存在混沌,我们在弄清楚它的本质之前,最好持谨慎态度。

       在OpenAI内部的这场纷争中,一个深刻的问题浮现出来:随着人工智能技术的飞速发展,我们是否已经做好准备迎接超级人工智能的诞生?许多研究者强调,在这种强大的智能形式出现之前,解决人工智能对齐问题是至关重要的。那么,人工智能对齐究竟是什么呢?简而言之,人工智能对齐就是确保人工智能系统的目标、决策和行为与人类的价值观和利益相一致,避免出现人工智能选择执行与人类意图不一致的行为。

       这种对齐不仅是技术层面的挑战,更涉及深层的伦理和道德问题。它要求我们在推进技术的同时,也要考虑如何使这些强大的工具服务于人类的长远利益。如果处理不当,可能导致不可预测的后果:人工智能的行为可能会背离我们的意图和利益,甚至可能带来无法预料的灾难。

       2018年,在美国亚利桑那州坦佩市,一辆优步自动驾驶汽车撞死了过马路的伊莱恩·赫尔茨贝格。美国国家交通安全委员会的审查发现,造成这一悲剧的原因之一,在于“系统从未将她归类为行人……因为她在没有人行横道的地方过马路;该系统的设计没有考虑乱穿马路的行人”。这个案例突显了人工智能对齐在自动驾驶领域的至关重要性。仅仅遵循交通规则是不够的,我们还需要确保:在保护乘客和行人安全方面,自动驾驶汽车的人工智能系统,能够做出符合人类道德和伦理标准的决策。

       2023年12月底,杭州市上城区网警破获的一起重大勒索病毒案件,进一步揭示了人工智能对齐问题的复杂性。该犯罪团伙成员都具备网络安防的专业资质,并在犯罪过程中利用ChatGPT优化其程序。这些犯罪分子分工合作,一方面编写勒索病毒,另一方面借助ChatGPT进行程序优化,最后实施网络敲诈勒索。这一事件不仅展示了人工智能技术在误用时的潜在危害,也凸显了防止其被用于有害目的的重要性。

       在《人机对齐》中,布莱恩•克里斯也列举了一系列引人深思的实例:越来越多的美国州法和联邦法,允许使用“风险评估”软件来决定保释和假释。越来越多的自动驾驶汽车,在高速公路和城市的大街小巷中穿梭。贷款申请、求职简历甚至医学检查的结果,往往不再需要人工审核便可得出。这种趋势仿佛表明,21世纪初的人类正试图将社会的管理交给人工智能,就像将驾驶汽车的任务交给自动驾驶系统一样。

       然而,这里存在一个极为关键的问题:如果人工智能模型缺乏价值观对齐,它们可能输出具有种族或性别歧视的决策,协助网络黑客编写用于网络攻击和电信诈骗的代码,或者在更极端的情况下,它们甚至可能试图说服或帮助有自杀念头的用户结束自己的生命。这些例子清楚地表明:我们需要确保人工智能系统不仅在技术上高效,而且在道德和伦理上符合人类社会的基本价值观。

       因此,为了确保大模型的安全性、可靠性和实用性,我们必须防止它产生有害输出或被滥用。2024年1月,谷歌DeepMind的机器人团队宣布了一项雄心勃勃的计划:建立一个名为“AutoRT”的系统。这个系统将作为“机器人宪法”,指导机器人在收集和使用训练数据时的行为。这部“机器人宪法”的构思,明显受到科幻作家艾萨克·阿西莫夫“机器人三定律”的启发。这三条定律要求:机器人不得伤害人类或见人受伤而无动于衷;应服从人类的命令,但这些命令不能与第一条定律相冲突;机器人应保护自己的安全,但不得违背前两条定律。

      “机器人宪法”将通过“以安全为重点的提示”来指导大语言模型,避免选择可能对人类和动物造成风险的任务。这不仅仅是一种技术上的限制,实际上,它代表着对人工智能进行道德编码的一种尝试,确保它的行为和决策过程符合人类的伦理和道德标准。通过这样的措施,我们可以朝着创建更加可靠和负责任的人工智能系统迈进。

       实现人工智能对齐无疑是一个错综复杂的挑战,目前这个领域还没有找到一个完全的解决方案。然而,科学家们已经提出了一些富有前景的方法和思路。其中之一是利用人类反馈来训练人工智能系统。这意味着研究者们需要对人工智能的行为进行持续的监督和评估,以便及时发现并纠正任何与人类价值观不一致的行为,进而对系统进行调整和改进。此外,也可以开发人工智能系统以辅助人类进行这种评估,确保其决策过程更加透明和可靠。甚至,可以考虑专门训练一个用于人工智能对齐研究的人工智能系统,以更深入地理解和解决对齐问题。

       在这篇文章中,我们不会深入探讨上述这些技术细节,但是,无论选择何种技术路径,都必须面对一个核心问题:如果让人工智能遵循人类的价值观,它究竟应该向谁看齐?

       斯坦福大学的计算机科学家斯特法诺·埃尔蒙(Stefano Ermon)曾指出,虽然大多数人都认同人工智能对齐人类价值观这一理念,但挑战在于定义这些价值观究竟是什么。毕竟,不同文化背景、社会经济地位和地理位置的人们对价值观有着截然不同的理解。

       以ChatGPT等大模型为例,它们大多由美国公司开发,并以北美数据为基础进行训练。因此,当这些模型被要求生成各种日常物品时,他们会创建一系列美国式的物品。随着世界充满越来越多人工智能生成的图像,反映美国主流文化和价值观的图像将充斥在日常生活中。这不禁让我们思考:人工智能是否会成为一种文化输出的工具,从而在全球范围内影响其他国家和文化的话语表达方式?

       在这个阶段,我们面临着选择合适价值观的挑战。这里的难题并非仅仅让人工智能模仿人类,而要决定它应该模仿怎样的人类特质。人类本身的不完美性——包括多样化的价值观、个人偏好、缺点,乃至歧视倾向——都可能无意中被编码进人工智能。在为人工智能制定价值观时,除了要寻找不同文化和价值观之间的共识,还要考虑如何融合这些共识,来塑造一个更全面、更公正的人工智能。这就要求我们开发出更先进的道德和伦理规则,以确保人工智能不仅反映人类的优点,同时也能避免我们的缺陷。

       为此,我产生了一个更加激进的想法,为什么人工智能对齐一定要和人类对齐?也许我们应该探索一种与人类截然不同的、独立于人类局限性之外的价值体系。2018年,人类未来研究所的尼克·博斯特罗姆说过这么一句话:“人类的技术能力和人类的智慧在进行一场长距离赛跑,前者就像疾驰在田野上的种马,后者更像是站不稳的小马驹”。这个比喻不仅揭示了技术发展和人类智慧之间的失衡,也暗示了我们在构建人工智能价值观时可能存在的狭隘视角。

       也许,在人工智能的发展中,我们不应该局限于模仿人类现有的思维和行为模式。相反,我们可以探索更广阔的可能性,例如基于人类理想中的伦理和道德原则,甚至完全超越人类经验的新型智能。人工智能模型应该超越人类能力的局限性,而不仅仅是复制人类能力的局限性,这才是人工智能对齐故事中最激动人心的一幕。它给了人类一个审视自我的机会。这种全新的价值观对齐方式,可能是我们在面对不断发展的技术时所需的一次重大飞跃。


留言