如何应对AI内生安全风险,避免沦为“硅基文明”的奴隶

[日期:2024-09-18] 作者:物理组 次浏览 [字体: ]

(来源:观察者网)当前,全球人工智能技术快速发展,对经济社会发展和人类文明进步产生深远影响,给世界带来巨大机遇。与此同时,人工智能技术也带来难以预知的各种风险和复杂挑战。

观察者网就进入“无人区”的人工智能伦理难题,AGI的可能性等一系列话题,与北京瑞莱智慧科技有限公司AI治理研究院院长张伟强先生展开了深度对话。

观察者网:张院长您好。近年来,在OpenAI、谷歌等国际巨头的推动下,大模型不断朝着万亿、十万亿参数发展。目前AI大模型在千行百业中万物竞发,有批评者担忧大模型会进入劣质竞争模式,对算力、能源会带来浪费。同时“小模型”也正在寻找明星赛道。您如何看待大模型和小模型目前的竞合态势?

张伟强:这里所说的大模型其实更适合称之为基座模型,我们对它进行训练、再利用它进行推理,进而为我们提供生成式人工智能的基本能力。可以打个比方,高中毕业时候的知识和能力可以代表一个基座模型,特点是广而浅。如果要在专业领域开展工作,就一定要进一步接受专业教育。经过专业学习后,模型就可以称为某个领域的垂类模型了,特点是专而精。相较于基座模型,垂类模型在体量上相对较小。

基座模型和垂类模型之间的发展并不矛盾。一个提供基础能力,另一个提供专业能力,分别满足不同的应用场景。至于二者之间的竞合态势,我认为很大程度上并不取决于二者本身,而是取决于市场需求。市场需求在演化过程中会刻画二者的份额,也会在实践中实现优胜劣汰。毕竟,人工智能作为新质生产力建设的重要引擎,重在能够用得上、用得好。

观察者网:以市场为导向,竞争力不足的会被淘汰掉,这其实也提供了市场出清的渠道。

张伟强:是的。关于你提到的算力和能源问题,我记得刘慈欣说过一句话,谈人类最后会不会被人工智能反噬,认为人类在能源方面的无能反而会救了人类,因为我们没办法提供满足人工智能持续增长的能源需求。目前,我们国家注重绿色算力中心的建设,从需求和投入看,我认为是处在良性发展模式当中的。

未来对于算力资源的利用,可以从两个方面进行优化:一是通过管理方式提高资源利用效率,二是通过技术方式提高资源利用效能。算力也是市场导向的,一定要先看到需求,再稍作前瞻性地提前布局供给。要循序渐进形成需求与供给之间的有效互动、良性循环,叠加技术能力,使算力能够高质量支撑人工智能长远发展。

观察者网:您之前也有多篇文章和报道,谈到了AI带来的新型风险,其中包括“模型本身的幻觉”、“鲁棒性不足”、“不可解释性”等这些问题,对一般读者来说可能有些难以理解,可否再具体阐释一下?

张伟强:谈这个问题之前,我们可以先聊几个科幻电影,比如《终结者》、《黑客帝国》等。这些科幻电影的题材,就涉及人类向智能社会发展后,人与人工智能之间如何相处的问题。

我在一些演讲中始终强调一个观点,人工智能将是人类创造出来最接近自己的工具,与其他工具相比,这是它最特殊的地方。从历史长河看,人类对于工具的追求始终孜孜不倦,但凡有新的技术出现,我们总会把它转变成更优秀的工具。但是,人工智能这个工具和之前的蒸汽机、电甚至互联网还不太一样,它将更接近于我们自身。于是,我们第一次可以和自己的工具用自然语言进行对话,我们第一次对自己的工具提出了伦理要求等等,这些都是前所未有的。所以,人工智能将逐渐地、必然地成为我们人类社会中某种新的角色,参与到我们的社会生产、日常生活当中。在这种情况下,我们未来智能社会的整体安全系数里面,人工智能就会占据非常大的分量。

电影《黑客帝国》与“天网”

人工智能的安全性如何呢?比较遗憾的是,截至目前,人工智能本身的安全性是很差的,这同它的技术底层机理有直接关系。

中科院院士、清华大学人工智能研究院名誉院长,也是瑞莱智慧首席科学家张钹是我国人工智能领域奠基人之一。他一直强调,人工智能到目前为止还没有一个扎实的基础理论。我们看到,和计算机的冯·诺依曼结构、互联网的TCP/IP协议等确定性技术架构相比,人工智能目前的“深度学习+数据驱动”模式仍旧是在摸着石头过河。就像现在的生成式人工智能,好像有了一定程度的智力且开始符合人类的预期,但未来是不是就一定沿着既有技术路线走下去,实际上也是未知的。

基础理论的缺乏使我们对人工智能没有十足的把控力,人工智能目前范式使得底层决策逻辑和链路存在天然不确定性,鲁棒性、可解释性都很差,这使得人工智能本身存在巨大的内生安全风险。

这种情况下,我们一方面要大力发展人工智能,因为其正成为人类新一代生产力的重要组成,也是全球科技竞争的新锚点。另一方面,也要高度重视人工智能安全,从理论攻坚到技术治理,尽可能提高人工智能的安全性。

首先,最核心的,是如何找寻到如同力学三定律一样扎实简洁的人工智能技术理论,这是提升人工智能安全的最根本方法。第二,需要提高对人工智能模型的安全测评能力。记得小说《三体》里,“面壁者”提出“思想钢印”的设想,原本意图是强制锁定大脑对事情的判断,让人类坚信胜利。不过,小说中的“破壁人”却说,“思想钢印”数以亿计的代码如果改几个正负号,很难被发现吧,结果这个系统就变成了让人类坚信不会胜利的设置。

随着人工智能系统越来越深入地与社会生产、人们生活相融合,可以预见,一方面,人类社会在可承受范围内将越来越多地让渡控制权给人工智能,例如,指挥、生产、服务等等。另一方面,人类也将越来越高地采信人工智能生成输出的结果,例如决策研判、人事管理等等。这些重要领域在运用人工智能先进性能的同时,也必然需要承担人工智能的安全风险。

人工智能系统复杂且庞大,想透彻地在代码层面审计它的安全性是非常困难的。所以,我们需要通过攻防对抗等方式,对人工智能模型进行安全测评,以掌握人工智能产品安全性是否合格。而且,各应用场景对人工智能系统安全阈值的要求还是不同的,比如调度指挥、工业生产、医疗健康等等,有的要求达到99.9%,有的要求达到90%就可以,这些细分领域的安全需求差异也是我们需要重点关注的。

第三,需要应对AI伪造技术造成的新型信息安全挑战。目前广泛存在的AI信息伪造技术,如深度伪造(Deepfake)、AIGC伪造等,可通过面部替换、表情驱动、声音伪造、文生图片、文生视频等方式,打破传统“眼见为实”的铁律,使人类肉眼丧失对数字世界信息真伪的判断能力。

AI伪造技术,一是会成为新型AI诈骗的高性能工具,包括破解银行等远程身份验证系统、制作不良视频实施敲诈勒索、以伪造形象进行财产诈骗等。二是成为网络内容生态治理新风险,通过伪造政治军事人物、专家企业家以及其他公众人物等多模态信息,发表不负责任言论或诋毁人物形象,造成舆论烈度。三是对权威信息造成挑战,导致真实信息需要“自证清白”,辟谣信息更需要技术佐证。四是对执法、司法工作中,数字证据的采信等造成全新挑战。

瑞莱智慧多年来深耕AI伪造检测技术,形成成熟检测产品,既包括应对远程身份验证(人脸识别)伪造的防火墙产品RealGuard,也包括针对视频、图片、音频、文本等全类型文件开展AI伪造检测的产品DeepReal。检测维度既可针对深度伪造(Deepfake)技术,也可针对最新的AIGC伪造技术。

点击查看大图

点击查看大图

观察者网:在7月初举办的世界人工智能大会上,我在现场也接触到不少服务器运维、算力租赁服务商等,其中很多需要用到受到出口限制的高端AI加速卡。目前,在AI算力“卡脖子”问题上,您有什么看法?

张伟强:瑞莱智慧联合蚂蚁、百度风投孵化了一家企业——生数科技,4月底在中关村论坛上发布了文生长视频大模型Vidu,性能可对标OpenAI的Sora。有关文生长视频的技术路线,生数科技提出的U-ViT架构,论文发表时间比OpenAI的DiT架构还要早2到3个月,更早探索出了底层技术,这也是我们在人工智能细分领域实现技术引领的一个缩影。至于算力芯片领域,虽然我们目前有一些落后,但我相信通过一段时间的持续攻坚,一定会取得实质性的突破。