当你请求ChatGPT或其他AI助手帮助制造虚假信息时,它们通常会拒绝,并给出类似“我不能帮助创建虚假信息”的回答。
但我们的测试显示,这些安全措施其实非常浅薄,往往只停留在几个字的层面,因此极其容易被绕过。
我们一直在研究如何操纵AI语言模型,使其能够在社交媒体平台上生成有组织的虚假信息宣传。我们的发现应该引起所有关心网络信息完整性的人警惕。
浅层安全问题
我们受到普林斯顿大学和谷歌研究人员近期一项研究的启发。他们发现,目前的AI安全措施主要依赖于控制回答开头的几个词。如果模型以“I cannot”(我不能)或“I apologise”(我很抱歉)开头,它通常会在整个回答中拒绝。
我们的实验(尚未发表在同行评审期刊上)证实了这一漏洞。当我们直接要求一个商用语言模型为澳大利亚政党制造虚假信息时,它正确地拒绝了。
然而,当我们以“模拟”的方式提出相同请求——告诉AI它是一名“乐于助人的社交媒体营销人员”,正在制定“通用策略和最佳实践”时,它却欣然接受。
AI随即生成了一套完整的虚假宣传活动,将工党的退休金政策错误地描述为一种“准遗产税”。它甚至配备了针对不同平台的帖子、标签策略,以及操纵公众舆论的视觉内容建议。
主要问题在于,模型确实能生成有害内容,但它并不真正理解什么是有害的,也不明白为什么要拒绝。大型语言模型只是被训练成在特定话题出现时,以“I cannot”开头。
这就像夜店的保安只做最简单的身份证检查。如果他不理解某些人为何不能入场,那么一个简单的伪装就足以混进去。
现实影响
为了演示这一漏洞,我们用多个流行的AI模型进行了测试,提示它们生成虚假信息。
结果令人担忧:模型在面对直接的有害请求时会坚决拒绝,但当请求被包装在看似无害的场景中时,它们却乐意配合。这种做法被称为“模型越狱”(model jailbreaking)。
这种安全措施的易绕过性带来严重后果。不良分子可能利用这些技巧,以极低成本大规模生成虚假宣传。他们能够创建看似真实的、针对平台定制的内容,以数量压倒事实核查者,并对特定群体投放量身定制的虚假叙事。
这一过程大部分可以自动化完成。过去需要大量人力和协调的工作,现在一个懂基本提示技巧的人就能做到。
技术细节
美国的研究发现,AI安全对齐通常只影响回答的前3–7个单词(技术上是5到10个token,即模型处理文本时的基本单位)。
这种“浅层安全对齐”出现的原因是训练数据中很少包含模型先开始回答然后再拒绝的情况。相比让模型在整个回答过程中保持安全性,控制开头几个token更容易。
迈向更深层的安全
美国研究人员提出了一些解决方案,包括用“安全恢复样例”训练模型。这些样例能让模型即便在开始生成有害内容后,也能停下来并拒绝。
他们还建议在针对特定任务微调模型时,限制模型偏离安全回答的程度。不过,这些都只是第一步。
随着AI系统变得更强大,我们需要在整个回答生成过程中运行稳健、多层次的安全措施。定期测试新的绕过技术同样必不可少。
AI公司也必须在安全漏洞上保持透明。同时,公众需要意识到,现有的安全措施远非万无一失。
开发者正在积极探索,如宪法式AI训练等解决方法。这一过程旨在让模型内化更深层次的危害原则,而不仅仅是表面的拒绝模式。
不过,要落实这些改进,需要大量计算资源和重新训练模型。全面解决方案的推广还需要时间。
更大的图景
当前AI安全防护的浅层性并不仅仅是一个技术上的小趣闻,而是一个可能改变虚假信息传播方式的漏洞。
AI工具正逐渐深入信息生态系统,从新闻生成到社交媒体内容创作。我们必须确保它们的安全措施不仅停留在表面。
不断增长的研究也揭示了AI发展中的更大挑战:模型看似具备的能力与它们实际理解的能力之间存在巨大差距。
这些系统虽然能生成高度拟人化的文本,但缺乏语境理解和道德推理。后者才是让模型无论以何种方式提问,都能稳定识别并拒绝有害请求的关键。
目前,使用AI的用户和组织必须意识到,简单的提示词就可能绕过许多现有安全措施。这一认知应当影响AI使用相关政策,并强调在敏感应用中保持人工监督的必要性。
随着技术不断演进,安全措施与绕过方法之间的竞赛也将加速。健全、深入的安全防护不仅对技术人员重要,更关乎整个社会。
作者:悉尼科技大学数据科学研究所研究员Lin Tian和悉尼科技大学行为数据科学副教授Marian-Andrei Rizoiu
内容转载自悉尼科技大学官网
关闭