6个小时前,OpenAI联合创始人、首席科学家Ilya Sutskever宣布从OpenAI离开。20分钟前,另一名OpenAI研究员Jan Leike也宣布辞职。Jan Leike可以没有那么有知名度,但是他和Ilya Sutskever是OpenAI一个“超级对齐”团队的两名负责人之一。随着他们的离开,名义上,超级对齐团队就暂时群龙无首了。
如果说AGI代表着AI进步的一面,那么“超级对齐”就代表AI风险的一面,所谓超级对齐,就是如何让未来的超级智能,如何依然与人类价值观对齐。这个团队原本计划拿出20%的计算资源来做超级对齐。
现在看,该项目可能是“宫斗事件”的一个矛盾点,在谷歌等大公司的重压之下,OpenAI无论如何体量还不够大。拿出20%的资源干一件为了全人类幸福的事情,我不确定作为CEO的山姆·奥特曼(从投资负责的角度)是否会真心甘情愿。俩个负责人都走了,计划还会继续吗?
某种程度上,这是NGO或者官方组织更适合做的事业。不过考虑到OpenAI一开始就是一个非盈利组织。所以出身问题也是将要伴随OpenAI很久的一个原罪吧。
对了,这个文章的创作者之一是Leopold Aschenbrenner,也是“超级对齐”团队核心成员。一个月前被OpenAI开除了,理由涉嫌泄密。(今夕何夕,附件图片是三位离开的人,当年合写的论文,弱监管能召唤出强智能吗?)
***
下边是2023年7月5日OpenAI在官方博客发布的“超级对齐”计划全稿
Introducing Superalignment
介绍超级对齐
我们需要科学和技术上的突破,来引导和控制比我们聪明得多的AI系统。为了在四年内解决这个问题,我们启动了一个新团队,由Ilya Sutskever和Jan Leike共同领导,并将我们迄今为止获得的计算资源的20%用于这一努力。我们正在寻找优秀的机器学习研究人员和工程师加入我们。
超级智能将是人类有史以来最具影响力的技术,它有望帮助我们解决世界上许多最重要的问题。但超级智能的巨大潜力也可能带来巨大的危险,甚至可能导致人类无法掌控甚至灭绝。
尽管超级智能现在看起来还很遥远,但我们相信它可能在本十年内出现。
管理这些风险将需要新的治理机构和解决超级智能对齐问题等等:
我们如何确保比人类聪明得多的AI系统能够遵循人类的意图?
目前,我们还没有解决潜在超级智能AI的引导或控制问题,也没有防止其失控的解决方案。我们目前的AI对齐技术,如从人类反馈中进行强化学习,依赖于人类监督AI的能力。但人类将无法可靠地监督比我们聪明得多的AI系统,因此我们目前的对齐技术将无法扩展到超级智能。我们需要新的科学和技术突破。
1、我们的方法
我们的目标是构建一个大致与人类水平相当的自动对齐研究者。然后,我们可以利用大量的计算资源来扩大我们的努力,并逐步对齐超级智能。为了对齐第一个自动对齐研究者,我们将需要1)开发一种可扩展的训练方法,2)验证结果模型,3)对我们的整个对齐流程进行压力测试:
为了在人类难以评估的任务上提供训练信号,我们可以利用AI系统来协助评估其他AI系统(可扩展的监督)。此外,我们还希望了解并控制我们的模型如何将我们的监督推广到我们无法监督的任务(泛化)。
为了验证我们系统的对齐性,我们自动搜索问题行为(鲁棒性)和问题内部(自动可解释性)。
最后,我们可以通过故意训练不对齐的模型,并确认我们的技术能够检测到最严重的不对齐(对抗性测试)。
我们预计我们的研究重点将随着我们对问题的了解而发生重大变化,并且我们可能会添加全新的研究领域。我们计划在未来分享更多关于我们的路线图的信息。
2、新团队
我们正在组建一个顶尖的机器学习研究人员和工程师团队来解决这个问题。
我们将在未来四年内将我们迄今为止获得的计算资源的20%用于解决超级智能对齐问题。我们的首席基础研究赌注是我们的新超级对齐团队,但正确执行这一任务对于实现我们的使命至关重要,我们预计许多团队将贡献力量,从开发新方法到扩大规模再到部署。