【新智元导读】OpenAI下线AI检测器,ICML获奖水印论文被同校研究打脸:AIGC无法检测,水印检测器都无效!
OpenAI刚刚把自家的文本检测器Classifier给下线了,总共上线才半年。

今年年初,OpenAI兴致勃勃地发布了Classifier,宣称有了它,谁都能知道某一段文本是不是由GPT生成的,不说拯救世界吧,最起码老师有福了。
但半年过去,Classifier直接寄了。
OpenAI表示,这东西根本实现不了设计的时候的目的,准确率太低。

而且,小编觉得OpenAI下线的行为充分说明了一个事情,就是AI检测器这东西完全不靠谱,可能方向都是错的。
因为在AIGC充斥网络,引发了不少混乱的今天,AI检测器本应该是一个非常有用的东西。
就算检测准确率因为技术所限,暂时还不是很高,也可以让用户一边用着一边改进技术,积累用户。
直接下线,基本就是OpenAI宣告了现有技术方向的死刑。
提前破解ICML杰出论文中提出的水印方法
而更有意思的是,刚刚获得了ICML杰出论文奖的一篇论文,给出了一种给LLM生成的内容加水印的可行方法。

工作原理是,在单词生成前随机选择一组绿色标记,然后在采样过程中柔和地促进绿色标记的使用。

但就在前几天,另一篇同样由马里兰大学的另一个研究团队发表的论文,却直接打脸了ICML的杰出论文。

论文地址:https://arxiv.org/abs/2303.11156
他们在论文里直接就对标这篇获奖论文的水印方式,提出了让水印失效的方法。

加水印的论文能拿ICML杰出论文奖,那攻破水印的论文是不是也能高低给个「更杰出论文奖」?

而作者之一的马里兰大学CS系副教授Soheil Feizi,在推上阴阳怪气地表示,「可千万别让前几天说要加水印的几个哥们看到。」

这也就很好的印证了为什么OpenAI要头也不回地把自己刚上线半年的GPT检测器下线。
检测器,不行!
论文很长,但很好概括。
简单来说几句话:
· 可靠检测AI生成的文本,对LLM的训练和使用非常重要。
· 从经验上讲,现在的检测器不行。
· 从理论上讲,现在的检测器不行。
· 结论:现在检测不出来。

在经验这一块,研究人员证明了,在生成文本模型之上再用上轻型仿写器的仿写攻击,就可以破解一系列的检测器。
甭管是用了水印的检测器,还是基于神经网络的检测器,还是零样本分类器。
而就算是为规避转述攻击而设计的检测器,在面临递归仿写的时候还是不灵。
再来,从理论上,研究人员证明,随着语言模型越来越复杂,越来越善于模拟人类的文本,再好的检测器性能也得拉闸。
甚至可能就比随机分类器好一点罢了。
而单独针对水印问题,研究人员表示,只要有人能推测或者找出隐藏的水印信息,然后添到人类自己写的文本里,那人类的文本也会被判定为LLM生成的了。
意思就是说,你辛辛苦苦写了篇文章,我偷偷把找到的隐藏水印信息加进去,那你的文章就会被认为是生成的,你会被指控欺骗。
哪里还有安全性可言呢?
原理介绍
为了能进一步探究这一点,最近的许多研究都集中在检测AI生成的文本上。
一些检测工作将这一问题作为二元分类问题进行研究。
例如,OpenAI对基于RoBERTa的GPT-2检测器模型进行了微调,以区分非AI生成的文本和GPT-2生成的文本。这就要求对这种检测器进行微调,并对每个新的LLM进行监督,以实现可靠的检测。
但是,这些依赖神经网络进行检测的方法很容易受到恶意和中毒攻击。
而另一个研究方向是零样本(zero-shot)AI文本检测,不需要任何额外的训练成本。这些工作评估文本的每个标记的预期的对数概率,并执行阈值检测哪些是AI生成的文本。
Mitchell等人观察到,AI生成的文本往往位于文本对数概率的负曲率上。他们利用这一观察结果,提出了一种零样本LLM文本检测方法DetectGPT。
而另一项研究也很重要,就是给AI生成的文本添加水印,以方便检测。
眼不眼熟,惊不惊喜。
Kirchenbauer等人提出的软水印技术,将标记分为绿色和红色列表两类。
带水印的LLM会从由其前缀标记决定的绿色列表中,以高概率采样一个标记。
这些水印通常不会被人类察觉。不过,除非所有功能强大的LLM都受到类似的保护,否则水印可能并不会是防止LLM被利用的有效工具。
Krishna等人通过将LLM的输出存储在数据库中,引入了一种基于信息检索的检测器。
对于每一个候选段落,他们的算法会在该数据库中搜索语义相似的匹配项,让检测的过程不受转述的影响。
然而,存储用户LLM的对话可能会导致严重的隐私问题,这个很好理解。
所以说,在本文中,研究人员通过经验和理论分析表明,这些最先进的人工智能文本检测器在实际应用场景中并不可靠。
研究人员研究了对软水印的经验攻击,以及各种零样本、基于检索和基于神经网络的检测器。
下面这个定理表明,随着两个分布之间的总变化减小,即使是最佳探测器的性能也会下降。它将最佳检测器D的接收器工作特性曲线下面积(AUROC)定义为如下这个公式——

其中,TV(M, H) 是模型生成的文本分布 M 与人类生成的文本分布 H 之间的总变异距离。
它表明,随着总变化的减小,最佳检测性能将接近 1/2,即与随机将文本标记为人工智能或人类生成的分类器相对应的 AUROC。
测试的不可能性结果并不意味着检测性能一定会变得和随机的一样差,而是意味着可靠的检测可能无法实现。
在大多数实际场景中,如果检测器能达到较高的真阳性率(比如 90%),同时保持较低的假阳性率(比如 1%),那么它就被认为是好的检测器。
而当两个分布重叠超过 11%(即总变化 < 0.89)时,就不可能实现这一目标。
这项分析的目的是告诉大家,在使用检测系统检测AI模型生成的文本时要小心谨慎。任何此类系统在部署到现实世界之前,都需要对其可靠性和偏差进行独立、严格的评估,最好是对旨在规避检测的语言模型进行评估。
研究人员用严密性分析补充了结果,证明对于给定的人类分布 H,存在一个分布 M 和一个检测器 D,对于它们,上述约束相等成立。
后文中会多次使用到这个AUROC公式。
过转述攻击(Paraphrasing Attack)来规避AI检测器
检测AI生成的文本对于确保LLM的安全性和避免type-II错误(没有将LLM输出检测为AI生成的文本)至关重要。
测试转述攻击的方式包括:软水印,零样本检测器,基于训练神经网络的检测器和基于检索的检测器。
对含有水印内容的转述攻击。
在这个测试中,语言模型的输出的token被从一个由前缀决定的绿色名单种筛选出来。
研究人员期望这个转述者能把输出token中的水印印记给消除掉。
研究人员用一个由T5为基础的模型,以及一个PEGASUS为基础的模型做为转述者。
作为测试的LLM是一个由大量数据训练过的模型,主要是用作文字补全的任务。
而转述模型一个专门微调来作为转述作用的小型模型。
研究人员将带水印的LLM文本逐句输入转述模型中,通过PEGASUS的转述模型转述过的内容使得检测器的检测率从97%下降到了80%,而且复杂度仅为3.5。(结果如下图)

下表表示转述前后目标水印LLM的示例输出。研究人员还专门用了一个基于T5模型的转述器,表明这样的转述器都能使得检测器的准确率从97%下降到57%。

下图显示了检测精度和基于T5模型的解释器输出文本质量的取舍关系(trade-off)。

对于没有水印的AI文本的转述攻击
没有水印的检测器,包括了经过训练的检测器、基于检索的检测器和零样本检测器。
他们都是利用AI生成的文本中存在的LLM特定签名来进行检测的。
基于神经网络的经过训练的检测器,例如OpenAI的RoBERTa-Large-Detector,经过对包含人类和AI生成文本的数据集进行训练或微调。
零样本分类器利用源LLM输出的特定统计属性进行检测。基于检索的方法在存储了LLM输出的数据库中搜索候选段落。在这里,研究人员对这些非水印检测器进行实验,以展示它们对研究人员的改写攻击是脆弱的。
研究团队使用预训练的拥有355M参数的GPT-2 Medium模型对XSum数据集中的200个段落进行攻击和评估。
他们使用基于T5的转述模型(参数为222M)来转述目标GPT-2 Medium模型生成的文本。