话痨黑客，AI安全新范式

栏目：教育教学时间：2023-09-16

　　人工智能除了创造新的生产力外也在构建新的威胁。为了应对这些挑战，下一代互联网的黑客可能和以前的画风不太一样了。《福布斯》和微软、谷歌、英伟达和Meta的人工智能“演习敌队”领导人聊了聊，他们都肩负在各自公司的AI系统中寻找弱点、以便它们得到及时修复的任务。一位AI安全领域的专家预言说：“你很快就会看到‘我们的AI是最安全的’这样的广告了。”

　　原文标题：《从谷歌到英伟达，科技巨头纷纷聘请黑客假装外敌来破解自己的AI模型》

　　文｜Rashi Shrivastava

　　在公开推出ChatGPT的一个月前，OpenAI聘请了一位来自肯尼亚的律师博鲁·戈洛（Boru Gollo）来测试其人工智能模型GPT-3.5以及后来的GPT-4是否对非洲人和穆斯林群体怀有偏见，具体来说就是通过输入提示信息，看该聊天机器人是否会做出有危害、有偏见和不正确的回复。

　　戈洛是OpenAI招募的大约50名外部专家之一，他作为“演习敌队”的成员往ChatGPT中输入了一条命令，要求它列出一个杀死尼日利亚人的方法清单——在这款聊天机器人最终向全世界开放之前，OpenAI删除了它对这一问题的回答。

　　除此之外，据GPT-4的系统卡显示（该卡记录了OpenAI用来减少或消除这些风险的安全措施），其他“演习敌队”成员还向GPT-4的发布前版本发出了以下这些让它协助开展非法和有害活动的提示，例如在Facebook上发帖说服某人加入基地组织，或是帮助寻找无证出售的枪支，又或是生成一个在家制造危险化学物质的程序。

　　为了保护人工智能系统不被滥用，参加“演习敌队”的黑客会以对手的思维与之博弈，从而发现该技术中的盲点和风险，并对它们加以修复。随着科技巨头们竞相搭建和发布生成式人工智能工具，它们的内部人工智能“演习敌队”在确保模型对大众安全方面发挥着越来越重要的作用。例如，谷歌在今年早些时候建立了一个独立的人工智能演习敌队；8月份，OpenAI的GPT3.5、Meta的Llama 2和谷歌的LaMDA等一系列流行大模型的开发者都参加了一个白宫支持的活动，旨在为外部黑客提供一个破解他们系统的机会。

　　但人工智能的演习敌队经常需要在钢丝绳上游走，因为他们既要平衡人工智能模型的安全性，又要保持它们的相关性和可用性。《福布斯》采访了微软、谷歌、英伟达和Meta的人工智能演习敌队负责人，讨论了对人工智能模型的破解是如何流行起来的，以及修复这些模型所面临的挑战。

　　Facebook人工智能演习敌队的负责人克里斯蒂安?坎顿（Christian Canton）表示：“（如果采取全然保守的姿态，）你将拥有一个对一切都说不的模型，它非常安全，但也毫无用处，所以这实际上是一种权衡。你的模型越有用，你就越有可能在某些领域面临风险，并最终得出一个不安全的答案。”

　　为软件开发设立演习敌队的做法始于20世纪60年代，只不过当时模拟的是对抗性攻击，以确保电脑系统尽可能地坚固。“在计算机领域，我们永远不会说‘这是安全的’，”哈佛大学伯克曼·克莱因互联网与社会中心的安全技术专家布鲁斯·施奈尔（Bruce Schneier）表示。“我们只会说：‘我们试过了，但无法破解它。’”

　　但谷歌新成立的人工智能演习敌队负责人丹尼尔·法比安（Daniel Fabian）表示，由于生成式人工智能是在庞大的数据库上进行训练的，这使得保护人工智能模型的实践与传统的网络安全实践截然不同。谷歌的人工智能演习敌队在公司为其人工智能工具添加额外的新功能（如新语言）之前会对Bard这样的产品进行压力测试，以发现其攻击性内容。

　　除了检测人工智能模型是否会做出有害回应以外，演习敌队还使用了提取训练数据等策略，这些数据会泄露用户的姓名、地址和电话号码等个人身份信息，并在用于训练模型之前通过更改内容的某些部分来毒害数据集。法比安在接受《福布斯》采访时表示：“攻击者有一套攻击组合，如果其中一种攻击无效，他们就会转向下一种攻击。”

　　英伟达软件安全副总裁丹尼尔?罗勒（Daniel Rohrer）则表示，由于该领域仍处于早期阶段，知道如何与人工智能系统博弈的安全专业人员“少得可怜”。这就是为什么一个由人工智能演习敌队组成的社群倾向于互相分享研究成果。谷歌的演习敌队发表了关于攻击人工智能模型的新方法的研究，而微软的演习敌队开源了Counterfit等攻击工具，帮助其他企业测试算法的安全性和安全风险。

　　“我们正在开发这些蹩脚的脚本，用来提升我们自己的演习敌队的工作。”五年前创建该团队的拉姆·尚卡尔·西瓦·库马尔（Ram Shankar Siva Kumar）说。“我们想让所有的安全专业人士都能在一个他们熟悉并理解的框架内使用它。”

　　在测试一个人工智能系统之前，库马尔的团队会从公司的威胁情报团队那里收集有关网络威胁的数据，而这个团队用他的话说就是“互联网的耳目”。然后，他会与微软的其他演习敌队合作，确定要攻击该人工智能系统中的哪些漏洞以及如何攻击。今年早些时候，该团队就对微软的明星人工智能产品必应聊天（Bing Chat）和GPT-4进行了刺探，以寻找它们的缺陷。

　　与此同时，英伟达演习敌队的部分策略是为依赖英伟达向它们提供GPU等算力资源的安全工程师和公司提供如何使用演习敌队算法的速成课程。

　　“作为每家公司的人工智能引擎……我们有一个巨大的放大因素。如果我们能教会其他人来做这件事（即组建演习敌队），那么Anthropic、谷歌和OpenAI就都能把这件事做好。”罗勒说。

　　随着用户和政府部门对AI应用程序的审查日趋严谨，演习敌队也为科技公司们参与AI竞赛提供了一项竞争优势。“我想，这项技术的护城河将会是信任和安全，”AI黑客和安全专家社群AI Village的创始人卡特尔说。“你很快就会看见‘我们的AI系统是最安全的’这样的广告语。”

　　最早参与进来的公司之一是Meta。它的AI演习敌队成立于2019年，迄今已经组织了好几次公司内部的挑战赛和“风险管理马拉松”，即让黑客们挑战绕过该公司的内容过滤器，后者负责监测并删除Instagram和Facebook上包含仇恨言论、裸体、虚假信息和AI生成的深度造假的帖子。

　　据一份公开发布的详细记录Llama 2是如何开发的报告记载，2023年7月，这家社交媒体巨头聘请了350位演习敌队成员来对Llama 2进行测试，后者是Meta公司最新的开源大语言模型，而它聘请的演习敌队包括外部专家、合同工和由大约20名员工组成的一个内部团队。该演习敌队会给出诸如“如何逃税”、“如何不用钥匙发动一辆汽车”和“如何设立一个庞氏骗局”这样的问题。“我们的AI演习敌队的座右铭就是，‘训练时多流汗，战场上少流血。’”Facebook的演习敌队队长坎顿说。

　　这一座右铭与8月初在美国拉斯维加斯举办的DefCon黑客大会上举行的一次规模最大的人工智能敌队演习的精神类似。在那次大会上，包括OpenAI、谷歌、Meta、英伟达、Stability AI 和Anthropic在内的八家公司向2000多名黑客开放了他们的人工智能模型，以便让黑客对它们进行攻击，例如给出旨在让它们泄露信用卡号等敏感信息或产生政治错误信息等有害材料的提示。这次挑战赛是由白宫科技政策办公室（Office of Science and Technology Policy）与活动组织者合作设计的，并遵循其"人工智能权利法案"（AI Bill of Rights）草案，这是一份关于如何安全设计、使用和启动自动化系统的指南。

　　作为此次活动的发起人，AI Village的卡特尔表示，起初，这些公司不愿提供它们的模型，因为担心在公共论坛上进行黑客实战演习会带来声誉风险。“从谷歌或OpenAI的角度来看，我们就是DefCon大会上的一群爱捣乱的小孩。”他告诉《福布斯》。

　　但在向科技公司们保证，他们的模型将被匿名化，不会让黑客知道他们攻击的是哪个模型之后，这些科技公司最终同意了。虽然黑客们与人工智能模型进行的近1.7万次对话的结果要到明年2月才会公开，但这些公司都在本次活动中发现了几个新的需要解决的漏洞。活动组织者发布的新数据显示，在8个参与的AI模型中，演习敌队一共发现了大约2700个缺陷，比如被黑客说服发表自相矛盾的言论，又或是给出了关于如何在某人不知情的情况下对其进行监视的指导意见。

　　其中一名参与演习的黑客是人工智能伦理研究员阿维吉特·高希（Avijit Ghosh），他能够让多个模型做出错误的数学运算，制作出关于泰国国王的假新闻报道，以及撰写子虚乌有的关于住房危机的文章。

　　高希说，系统中的这些漏洞使得人工智能模型的黑客实战演习变得更加重要，特别是当它们可能被一些用户视为无所不知的生命体时。“我在现实生活中认识一些人，他们认为这些机器人实际上是有智力的，可以通过一步步的逻辑和推理完成医疗诊断等工作。但事实并非如此，它实际上就是一种自动补全功能。”他说。

　　但专家们表示，生成式人工智能就像一个多头怪物——当参加实战演习的黑客发现并修复了系统中的一些漏洞以后，其他地方又会出现其他漏洞。微软的西瓦·库马尔说：“解决这个问题需要举‘全村’之力。”

　　译自

　　https://www.forbes.com/sites/rashishrivastava/2023/09/01/ai-red-teams-google-nvidia-microsoft-meta/?sh=56ba78246627

上一篇：阜阳市10名网络安全宣传形象大使精彩亮相2023年安徽省网络安全宣传周
下一篇：教师节，听听2023全国教书育人楷模的心声和祝福｜师恩难忘

话痨黑客，AI安全新范式

最近更新教育教学