(资料图)
近日,斯坦福大学研究团队提出了一种名为DetectGPT的新方法,旨在成为首批打击高等教育中LLM生成文本的工具之一。相关研究论文已发表在预印本网站arXiv上。据悉,该方法或对检测验证产业带来积极影响。
此前,GPT- 3、PaLM和ChatGPT等大型语言模型(LLM)已经被证明能够针对各种各样的用户查询做出非常流畅的响应,可以生成“令人信服”的有关科学、数学、历史和当前事件以及社会趋势等复杂问题的回答。
尽管这些回答经常充满错误,但这些生成文本的清晰、自然仍然使得LLM在某些情况下被用来替代人力,特别是在学生论文写作和新闻撰写方面。
例如,学生可能使用LLM来完成书面作业,使得教师无法准确地评估学生的学习情况,而且,由LLM撰写且公开发布在新闻网站上的内容,往往存在大量的事实性错误,由于缺少足够的人工审查,也会对新闻读者产生误导。
不幸的是,在对LLM生成的文本和人类编写的文本进行分类时,人类的表现只比随机情况略好(Gehrmann et al., 2019)。因此,使用自动检测方法来识别人类难以识别的信号,成为当前业内的一个重要研究方向,这种方法可能会让教师和新闻读者更相信他们看到的内容来自人类。
在此次工作中,研究团队基于“LLM生成的文本通常徘徊(hoveraround)在模型的对数概率函数的负曲率区域的特定区域周围”这一发现,提出了一种用于判别LLM生成文本的新指标,这一方法既不需要训练单独的分类器,也不需要收集真实或生成的段落的数据集。
据论文描述,DetectGPT可以将20B参数GPT-NeoX生成的假新闻文章的检测从0.81 AUROC提高到0.95 AUROC。研究团队表示,这一方法在检测机器生成的文本方面优于其他零样本方法,或在未来的机器生成文本检查方面非常有前途。另外,他们也将尝试将这一方法用于LLM生成的音频、视频和图像的检测工作中。
然而,这一方法也存在一定的局限性。例如,如果现有的掩模填充模型不能很好地表示有意义的改写空间,则某些域的性能可能会降低,从而降低曲率估计的质量;DetectGPT相比其他检测方法需要更大的计算量等。
未来,随着LLM的不断改进,它们将成为越来越有吸引力的工具,可以在各种环境(比如教育、新闻和艺术)中取代人类作者。尽管在所有这些环境中都存在语言模型技术的合法使用,但教师、读者和消费者可能需要工具来验证具有高度教育、社会或艺术意义的某些内容是否来自人类,特别是在真实性(而不仅仅是流畅性)至关重要的情况下。
X 关闭
-
环球快看:甘草学园 | 从《内经》解:“壮火”和“少火”,及其临床指导意义
“壮火”与“少火”皆首见于《黄帝内经》,历代中医名家对其内涵的理解及对二者关系的论述众说纷纭。现代医者总结前人经验,将“壮火”、“少
-
环球今头条!春节期间全国日均41万人次出入境
新华社北京1月28日电(记者任沁沁)记者28日从国家移民管理局获悉,春节期间,全国移民管理机构共查验出入境人员287 7万人次,日均41万人次,
-
头发剪短了的句子(热门313句)
头发剪短了的句子热门117句1 留了太久长发,想换发型了,但是没勇气。2 失去一个人就像剪掉一截头发习惯性的摸到最尾端却抓到了空气即使心里清
-
人生哲理的句子15字(优选71句)-当前讯息
人生哲理的句子15字优选71句1 许多人缺少的不是美,而是自信的气质,记住:自信本身就是一种美。有了积极的心态就容易成功。2 对待生活中的每
-
国网岐山县供电公司:春节收假聚心展新风
国网岐山县供电公司:春节收假聚心展新风
-
800-1200万总价段,买这些板块就对了!
在上海,800-1200万总预算,算得上改善的中流砥柱。但这个价格段,真的很难选择。板块估值有高有低。同样总价,买在不同的板块,未来升值有可
-
企业纾困在行动丨惠企及时雨 助企大发展 当前简讯
近日,记者跟随鹰潭高新区助企人员,来到鹰潭嘉美印铁制罐公司。此时室外温度接近0℃,然而公司车间内一派火热。 “李经理,公司的产销应该
-
西安“58元一碗大白菜汤”面馆暂停营业,发视频博主称自己被辱骂近崩溃-焦点
西安“58元一碗大白菜汤”面馆暂停营业,发视频博主称自己被辱骂近崩溃---视频剪辑轩逸瑶。1月25日晚,在西安一家面馆,河南游客郑女士(化姓
-
实时焦点:昨天与马刺赛后,施罗德因车牌问题被警方截停
昨天湖人与马刺的比赛结束后,丹尼斯-施罗德乘坐车辆回家途中,在好莱坞被警察拦下。根据八卦媒体TMZ的报道,事情发生在午夜左右,就在湖人队
-
环球热门:机械师将于 2 月 1 日推出新品,搭载英特尔 13 代酷睿处理器
IT之家1月27日消息,机械师官方宣布,将于2月1日晚举行发布会,推出一款搭载英特尔13代酷睿处理器的笔记本电脑新品。从海报中我们可以看到,