2024-09-02 09:53:02|已浏览:20次
科学家证实ChatGPT改变学术论文风格,5年内百万篇论文“is”“are”词频减少10% ChatGPT “克星”出现,OpenAI 重磅发布全新 AI 鉴别工具,网友吐槽:失败率太高啦!,
科学家证实ChatGPT改变学术论文风格,5年内百万篇论文“is”“are”词频减少10%
在近期一项研究中,意大利国际高等研究院(SISSA ,International School for Advanced Studies) 博 士生耿明萌量化了 ChatGPT 对学术论文写作的影响。
图 | 耿明萌(来源:耿明萌)
日前,相关论文以《ChatGPT 正在改变学者的写作风格吗?》(Is ChatGPT Transforming Academics’ Writing Style?)为题发在 arXiv[1]。
图 | 相关论文(来源:arXiv)
据介绍,之前大多数同类研究,往往是分析某个段落或某篇文章由 ChatGPT 生成的可能性。但是,本次成果更加关注于整体情况。
举例来说,一项成熟的运动不只需要优秀的运动员,还需要球迷、教练、投资人、裁判等。
目前,大模型的火热程度已经无需赘述,这条赛道甚至显得有些拥挤不堪。在这样的背景之下,耿明萌想做一些类似足球裁判员和数据分析师的工作。
事实上,就在一年之前他还不是 ChatGPT 的拥趸,也不打算追逐大模型的研究热潮。
2023 年夏,耿明萌把更早一篇论文的初稿提交给导师之后,导师并没有直接在原文上修改,而是给出一些简略的建议和批注,其中有不少建议针对的是写作问题。
这时,耿明萌想到使用 ChatGPT 来修改和润色论文,但是很快他就意识到 ChatGPT 的风格,比如其所使用的词语频率和人类有所不同。
于是,他想从词频角度出发,来分析 ChatGPT 对于人类论文的影响。耿明萌导师的主业是天文和统计,之前并没有自然语言处理的经验。
导师也很疑惑为何当时仍未有人使用这么简洁明了的方法来研究 ChatGPT 的影响,因此推测有可能是因为行不通所以才没有人研究,于是暂时搁置了这个想法。
事情的转机发生在 2023 年秋,当时导师频繁出差去宣传自己出版的新书,并没有时间讨论课题组的项目。
于是,耿明萌决定腾出手自己试试看。
他记得特别清楚,在万圣节假期的前一天晚上,在解决所有数据问题之后,他出去旅行了两周,回来又花费一周时间得到了初步结果。
即:学术论文中确实有一些词语的使用频率,在 ChatGPT 出现之后发生了明显变化。
为了方便起见,耿明萌选取了当时 arXiv 上最新的 100 万篇论文的摘要进行分析。之所以这样做是因为摘要虽然短小,但是比论文的其他部分更有代表性。
结果他发现:最近几年论文数量出现暴涨,比如从 2018 年到 2023 年,就有超过 100 万篇论文被提交到 arXiv 上。其中,大约有 90% 论文来自于数学、物理和计算机三个学科。
当然,初步的研究结果也很有意思:比如“significant”的词频翻了接近一番,而“is”和“are”的词频则减少了 10% 左右。
(来源:arXiv)
于是,耿明萌选取 2022 年 arXiv 上的前两万篇论文摘要,通过 ChatGPT API 加以修改和润色,借此分析得到 ChatGPT 的词语偏好。
由此发现:2023 年 ChatGPT 修改论文前后的词频变化,和 2022 年的词频变化有着很大相关性。但是,2022 年相对于 2021 年,在词语频率变化上的相关性很小。
(来源:arXiv)
那么,如果使用 ChatGPT 处理一部分论文摘要,和未经 ChatGPT 处理的论文摘要混在一起,能否基于词语频率的变化,估算出经过 ChatGPT 处理的论文摘要的比重?以及应该怎样估计?再就是应该选取哪些词语?
为了回答这些问题,耿明萌提出一个含有噪声项的模型,证明在某些情况之下,词语的选取并不是越多越好。
而是应该主要考虑以下两个标准:词语频率、以及 ChatGPT 处理前后的变化率。
而且,对于不同类别和不同混合比例的摘要,选取的词语也应该有所变化。随后,通过校准和测试,上述理论分析也在模拟中得到了验证。
(来源:arXiv)
基于此,他开始根据真实的 arXiv 摘要数据,来估算 ChatGPT 的影响。
这一分析是基于:ChatGPT API 的模拟输出对于不同的 prompt,其输出的结果也不相同,因此所得出的结果是一个相对值。
如果以“Revise the following sentences”的结果作为基准,ChatGPT 修改的“比例”大约在 35% 左右。
如果科研人员在使用 ChatGPT 时都能使用更精准的 prompt,那么 ChatGPT 对于论文摘要的贡献就完全有可能超过 100%。
不过,耿明萌更愿意用“影响”而非用“比例”来看待本次结果。
不同的 prompt 会产生不同的输出,因而同样的使用比例也会产生不同的估计结果。考虑到实际的使用场景,一些人很有可能在使用 ChatGPT 之后刻意抹去了一些痕迹。
亦有论文作者的写作风格的确受到了 ChatGPT 的影响,但最后并没有使用 ChatGPT 润色论文摘要。同时,其它大模型可能会有相似、但不相同的词频。
(来源:arXiv)
总的来说,耿明萌依然认为,使用 ChatGPT 或其它工具,来润色论文和翻译论文本身并没有错,但要知道修改前后语义上的差别。
对于母语非英语的研究人员来说,这些新工具的合理使用确实也能促进公平,但直接利用这些工具生成论文段落是不可取的。
而研究 ChatGPT 对于论文风格的影响,则能助力科研人员更好地使用类似工具。
参考资料:
1.https://arxiv.org/pdf/2404.08627
运营/排版:何晨龙
01/ 科学家研发AI病理学大模型,受训于28个癌症中心3万病人数据,为病理学诊断打造新工具
02/ 石墨烯制备迎来新里程碑:科学家在无氧环境下造出石墨烯,成功弥合质量和可重复性的差距
03/ 浙大校友将Cas9基因编辑效率提升百倍,打造基因编辑通用型改造策略,助力治疗基因疾病
04/ 中科大团队打造摩擦静电镊,提出新型液滴操控技术,可用于操作细胞液体和太空实验
05/ 助力解决自动驾驶商用难题:科学家提出等效加速测试方法,提升仿真与实车测试速度1000倍
ChatGPT “克星”出现,OpenAI 重磅发布全新 AI 鉴别工具,网友吐槽:失败率太高啦!
整理 | 屠敏
出品 | CSDN(ID:CSDNnews)
ChatGPT 的实力,让众人为之疯狂,但也让外界感到害怕。
对于其创造者,OpenAI 一边在奋力升级 ChatGPT,让它的真实性和数学能力都大大提升;另一边开启“压制”模式,解使用者的后顾之忧,让 ChatGPT 的应用越来越正规。
这不,昨日,OpenAI 重磅推出了一款新的 AI 工具,用来识别 AI 生成的文本内容,并给出多种建议,帮助人类辨别内容的「真伪」。不过,OpenAI 自己也率先承认,这款工具是“不完美”的。
想要尝鲜的用户,可以通过以下链接了解详情:https://platform.openai.com/ai-text-classifier
新工具诞生
在公告中,OpenAI 表示,新款的 AI-Text-Classifier(AI 文本分类器)可以用来区分人类写的文本和来自各种供应商使用 AI 写的文本。
这款 AI 文本分类器是一个语言模型,它是基于同一主题下人工编写文本和人工智能编写文本对数据集上进行的微调。
在模型训练上,OpenAI 认为是由人类编写的各种来源收集了这个数据集,比如预训练数据和提交给 InstructGPT 的人类演示。
进而,OpenAI 再将把每个文本分为提示和响应。在这些提示下,研究人员从其和其他组织训练的各种不同的语言模型中产生了响应,以此来不断训练 AI 文本分类器。
OpenAI 表示,“对于我们的 Web 应用,我们调整了置信度阈值,以保持较低的误报率;换句话说,只有当分类器非常有信心的情况下,才会将文本标记为可能是人工智能写的。”
在使用上,和 ChatGPT 的方法一样,这款免费且基于 Web 的工具用起来也特别方便。只需要用户将文本内容复制到检测框中,系统就可以评估文本由 AI 系统生成的可能性。
它一共提供了五种判别结果:非常不可能是由人工智能生成的;不可能;不清楚;可能;非常可能。
新款 AI 文本分类器在识别大于 1000 字的文本样本和用英语描述的文本中呈现的效果最好。要想提高这款工具的准确性,官方建议输入的文本长度越多越好。相较而言,它在其他语言中的表现明显较差。
有些遗憾的是,它并不能区分人类和人工智能编写的计算机代码。
官方警告慎用:没想象得那么好
目前对于这款工具,OpenAI 并没有做出更多的原理介绍,主要原因或因为这款工具还并不成熟。
当下这款分类器还有一些局限性:
对于一些固定的标准答案、文本等非常容易预测的内容,AI 文本分类器无法可靠地识别出来。例如,不可能预测前 1000 个质数的列表是由人工智能还是人类写的,因为正确答案总是一样的。
AI 写的文本可以被二次编辑,从而躲过分类器的检测。
OpenAI 官方表示,该工具识别还不是特别准确。在实验中,其对英语文本内容进行了测试,AI-Text-Classifier 可以正确地将 26% 的 AI 内容正确识别,提供“可能是 AI 编写的”建议参考;同时,错误地将 9% 的人类编写内容识别为 AI 生成的,这就属于误判了。
一名教授做了道计算后称:当下,这个工具在实践中是相当无用
对此,来自洛桑联邦理工学院教授 Marcel Salathé 对这个比例进行了计算,用以判别新 AI 分类器工具到底有多大用处。
他举例道,假设一所大学有 1000 名学生被要求写一篇文章,其中 3% 的人试图作弊,用 ChatGPT 来生成文本。因此,在这个比例下,会有 30 个 AI 生成的文本和 970 个人类生成的文本。
在此背景下,该学校的一名老师听说了 OpenAI 的新人工智能检测工具,并通过这款工具来检测收到的 1000 篇文章。根据 OpenAI 提供的比率来计算:
在 970 个人类生成的文本中,9%(即 87 个)将被错误地标记为人工智能生成的。
在 30 个人工智能生成的文本中,26%(即 8 个)将被正确标记为人工智能生成的。
换句话说,老师最终可能会将有 87+8=95 个文本标记为人工智能生成的。事实上,其中只有 8 个是人工智能生成的。
Marcel Salathé 教授表示,当工具为老师提供一个肯定的(即可能是人工智能生成的)结果时,该文本实际上是人工智能生成的概率只有 8.4%。其中绝大多数实际都是人类生成的内容。相反,大多数人工智能生成的文本(30 个中的 22 个)会被标记为 "人类写的 "验证结果通过。
整体而言,Marcel Salathé 直言,举这个例子并不是对该工具进行贬低或批评。因为当一款工具被研发出来的早期,准确率需要在实验中不断迭代优化,这是一个必然的过程。
不过,他也呼吁,如果你是一名教师,并且你认为刚刚得到了一个处理人工智能生成的工具,请注意,在当前这个阶段,这个工具在实践中是相当无用的。
OpenAI 回应:正在改进
正因此,OpenAI 也特别强调了 AI-Text-Classifier 并不能可靠地检测出所有人工智能写的文本,仅是作为一个强有力的参考而存在,譬如用此工具鉴别学术论文等。
与此同时,OpenAI 也表示,面向教育工作者,AI 文本分类器在课堂上有一定的限制和影响,因为其已经为教育工作者开发了一个关于 ChatGPT 使用的初步资源(https://platform.openai.com/docs/chatgpt-education),其中概述了一些用途以及相关的限制和考虑。
目前这个分类器已经公开,面向更多的用户收集一些使用的反馈,OpenAI 称,未来会逐步分享一些改进的方法
写在最后
事实上,OpenAI 虽然提供了 ChatGPT 这样的工具,但是它并不是第一家提供识别 AI 生成内容工具的企业。
过去一段时间内,在 ChatGPT 被用于生成原创文章、故事、歌词、小说等场景时,早已引发教师、艺术家、设计者的不满,
为此,来自普林斯顿大学的学生开发了 GPTZero,其此前分享道,已有超过 95000 人尝试了他研发的 ChatGPT 检测功能的测试版,用户群体最盛的莫过于“教师”,他们有着令人难以置信的需求。另外,斯坦福大学也发布了 DetectGPT,用来判断文本是否由 AI 生成的。
如今 OpenAI 下场加入“反 ChatGPT”的战局中,也让不少网友评论道:
自己反自己,也相当于把竞争对手的路都给走了,就让别人无路可走去吧~~
万万没想到,作为大学生,还没用上呢,就彻底无望了......
毋庸置疑的是,有这样一款验证工具,确实可以减少很多行业的顾虑,尤其是对教育行业而言。你怎么看呢?欢迎留言分享你的看法。
参考:
https://digitalepi.substack.com/p/how-useful-is-openais-new-ai-detection
https://openai.com/blog/new-ai-classifier-for-indicating-ai-written-text/
发布于:江苏