AI对齐：让人工智能拥抱人类的价值观

当前位置：

AI对齐：让人工智能拥抱人类的价值观

来源：澎湃新闻作者：editor 发布时间：2024-02-02

布莱恩•克里斯在其著作《人机对齐》中，为我们描绘了一个与日俱增的现代困境。随着人工智能技术的迅猛发展，我们好似置身于一部现代版的“魔法师学徒”的故事中。如同初出茅庐的巫师，我们召唤出强大而不可知的力量——人工智能。我们给它下命令，期望它既能自主运作又能绝对服从。但当我们意识到指令的不完整或不精确时，又陷入惊慌失措，拼命阻止它，担心自己的智慧不慎唤出了某种无法控制的怪物。

《人机对齐》，布莱恩•克里斯汀著，唐璐译，湖南科学技术出版社2023版

这种情境引发了一系列问题：如何防止人工智能偏离我们的预期，造成灾难性的背离？我们该如何确保它能够理解并遵循我们的规范和价值观？最关键的是，我们怎样才能确保人工智能按照我们所期望的方式行动？这就是所谓的“人工智能对齐问题”（the AI alignment problem）。它目前已经超越“人工智能安全”（the AI safety）,成为人工智能领域中最为核心和紧迫的议题之一。

那么，究竟什么是“人工智能对齐”？为什么这个概念在当今世界如此重要？让我们先放下技术细节，转而关注一个之前的热点新闻。如果让我来评选2023年度人工智能十大事件，“ChatGPT之父”山姆·奥特曼和OpenAI董事会的“宫斗剧”一定会名列榜单。回溯到2023年11月17日，OpenAI这家举世闻名的人工智能初创公司突然宣布解雇其CEO山姆·奥特曼。随后的5天里，经历了一系列复杂的政治纷争，被罢免的奥特曼又重返高位。这场发生在硅谷的内斗，被外界广泛视为人工智能领域的“灵魂之战”。

争端背后，其实折射出对人工智能未来两种截然不同的视角。一方面是我所称的“人工智能技术加速主义”，代表人物就是山姆·奥特曼。他们主张无条件加速人工智能技术的创新发展，并快速推出创新内容来颠覆社会结构，让人类随着技术的进步而进化。另一方面则是“人工智能对齐主义”，这一派的代表人物是要把山姆·奥特曼赶出董事会的首席科学家伊利亚·苏茨克维。他们认为，人工智能虽然能力强大，但在道德和伦理层面仍然存在混沌，我们在弄清楚它的本质之前，最好持谨慎态度。

在OpenAI内部的这场纷争中，一个深刻的问题浮现出来：随着人工智能技术的飞速发展，我们是否已经做好准备迎接超级人工智能的诞生？许多研究者强调，在这种强大的智能形式出现之前，解决人工智能对齐问题是至关重要的。那么，人工智能对齐究竟是什么呢？简而言之，人工智能对齐就是确保人工智能系统的目标、决策和行为与人类的价值观和利益相一致，避免出现人工智能选择执行与人类意图不一致的行为。

这种对齐不仅是技术层面的挑战，更涉及深层的伦理和道德问题。它要求我们在推进技术的同时，也要考虑如何使这些强大的工具服务于人类的长远利益。如果处理不当，可能导致不可预测的后果：人工智能的行为可能会背离我们的意图和利益，甚至可能带来无法预料的灾难。

2018年，在美国亚利桑那州坦佩市，一辆优步自动驾驶汽车撞死了过马路的伊莱恩·赫尔茨贝格。美国国家交通安全委员会的审查发现，造成这一悲剧的原因之一，在于“系统从未将她归类为行人……因为她在没有人行横道的地方过马路；该系统的设计没有考虑乱穿马路的行人”。这个案例突显了人工智能对齐在自动驾驶领域的至关重要性。仅仅遵循交通规则是不够的，我们还需要确保：在保护乘客和行人安全方面，自动驾驶汽车的人工智能系统，能够做出符合人类道德和伦理标准的决策。

2023年12月底，杭州市上城区网警破获的一起重大勒索病毒案件，进一步揭示了人工智能对齐问题的复杂性。该犯罪团伙成员都具备网络安防的专业资质，并在犯罪过程中利用ChatGPT优化其程序。这些犯罪分子分工合作，一方面编写勒索病毒，另一方面借助ChatGPT进行程序优化，最后实施网络敲诈勒索。这一事件不仅展示了人工智能技术在误用时的潜在危害，也凸显了防止其被用于有害目的的重要性。

在《人机对齐》中，布莱恩•克里斯也列举了一系列引人深思的实例：越来越多的美国州法和联邦法，允许使用“风险评估”软件来决定保释和假释。越来越多的自动驾驶汽车，在高速公路和城市的大街小巷中穿梭。贷款申请、求职简历甚至医学检查的结果，往往不再需要人工审核便可得出。这种趋势仿佛表明，21世纪初的人类正试图将社会的管理交给人工智能，就像将驾驶汽车的任务交给自动驾驶系统一样。

然而，这里存在一个极为关键的问题：如果人工智能模型缺乏价值观对齐，它们可能输出具有种族或性别歧视的决策，协助网络黑客编写用于网络攻击和电信诈骗的代码，或者在更极端的情况下，它们甚至可能试图说服或帮助有自杀念头的用户结束自己的生命。这些例子清楚地表明：我们需要确保人工智能系统不仅在技术上高效，而且在道德和伦理上符合人类社会的基本价值观。

因此，为了确保大模型的安全性、可靠性和实用性，我们必须防止它产生有害输出或被滥用。2024年1月，谷歌DeepMind的机器人团队宣布了一项雄心勃勃的计划：建立一个名为“AutoRT”的系统。这个系统将作为“机器人宪法”，指导机器人在收集和使用训练数据时的行为。这部“机器人宪法”的构思，明显受到科幻作家艾萨克·阿西莫夫“机器人三定律”的启发。这三条定律要求：机器人不得伤害人类或见人受伤而无动于衷；应服从人类的命令，但这些命令不能与第一条定律相冲突；机器人应保护自己的安全，但不得违背前两条定律。

“机器人宪法”将通过“以安全为重点的提示”来指导大语言模型，避免选择可能对人类和动物造成风险的任务。这不仅仅是一种技术上的限制，实际上，它代表着对人工智能进行道德编码的一种尝试，确保它的行为和决策过程符合人类的伦理和道德标准。通过这样的措施，我们可以朝着创建更加可靠和负责任的人工智能系统迈进。

实现人工智能对齐无疑是一个错综复杂的挑战，目前这个领域还没有找到一个完全的解决方案。然而，科学家们已经提出了一些富有前景的方法和思路。其中之一是利用人类反馈来训练人工智能系统。这意味着研究者们需要对人工智能的行为进行持续的监督和评估，以便及时发现并纠正任何与人类价值观不一致的行为，进而对系统进行调整和改进。此外，也可以开发人工智能系统以辅助人类进行这种评估，确保其决策过程更加透明和可靠。甚至，可以考虑专门训练一个用于人工智能对齐研究的人工智能系统，以更深入地理解和解决对齐问题。

在这篇文章中，我们不会深入探讨上述这些技术细节，但是，无论选择何种技术路径，都必须面对一个核心问题：如果让人工智能遵循人类的价值观，它究竟应该向谁看齐？

斯坦福大学的计算机科学家斯特法诺·埃尔蒙（Stefano Ermon）曾指出，虽然大多数人都认同人工智能对齐人类价值观这一理念，但挑战在于定义这些价值观究竟是什么。毕竟，不同文化背景、社会经济地位和地理位置的人们对价值观有着截然不同的理解。

以ChatGPT等大模型为例，它们大多由美国公司开发，并以北美数据为基础进行训练。因此，当这些模型被要求生成各种日常物品时，他们会创建一系列美国式的物品。随着世界充满越来越多人工智能生成的图像，反映美国主流文化和价值观的图像将充斥在日常生活中。这不禁让我们思考：人工智能是否会成为一种文化输出的工具，从而在全球范围内影响其他国家和文化的话语表达方式？

在这个阶段，我们面临着选择合适价值观的挑战。这里的难题并非仅仅让人工智能模仿人类，而要决定它应该模仿怎样的人类特质。人类本身的不完美性——包括多样化的价值观、个人偏好、缺点，乃至歧视倾向——都可能无意中被编码进人工智能。在为人工智能制定价值观时，除了要寻找不同文化和价值观之间的共识，还要考虑如何融合这些共识，来塑造一个更全面、更公正的人工智能。这就要求我们开发出更先进的道德和伦理规则，以确保人工智能不仅反映人类的优点，同时也能避免我们的缺陷。

为此，我产生了一个更加激进的想法，为什么人工智能对齐一定要和人类对齐？也许我们应该探索一种与人类截然不同的、独立于人类局限性之外的价值体系。2018年，人类未来研究所的尼克·博斯特罗姆说过这么一句话：“人类的技术能力和人类的智慧在进行一场长距离赛跑，前者就像疾驰在田野上的种马，后者更像是站不稳的小马驹”。这个比喻不仅揭示了技术发展和人类智慧之间的失衡，也暗示了我们在构建人工智能价值观时可能存在的狭隘视角。

也许，在人工智能的发展中，我们不应该局限于模仿人类现有的思维和行为模式。相反，我们可以探索更广阔的可能性，例如基于人类理想中的伦理和道德原则，甚至完全超越人类经验的新型智能。人工智能模型应该超越人类能力的局限性，而不仅仅是复制人类能力的局限性，这才是人工智能对齐故事中最激动人心的一幕。它给了人类一个审视自我的机会。这种全新的价值观对齐方式，可能是我们在面对不断发展的技术时所需的一次重大飞跃。