AI | 人工智能会削弱同行评审的严谨性吗?

2024 年 4 月

学者们逐渐接受了计算辅助工具,将其作为加速书面成果和分析工作的一种手段。然而,随着这些自动化系统熟练程度的提高,它们也有可能巧妙地引导知识讨论。斯坦福大学的一组研究人员进行了首次定量深度研究,探讨了语言模型在选定学术领域的普遍影响。

研究小组在 ChatGPT 于 2022 年 11 月首次亮相之前和之后,对提交给著名机器学习会议的评论以及在杰出科学期刊系列上发表的论文进行了研究。通过开发新的统计技术来衡量特定文本经过人工智能工具重大修改或生成的可能性,他们发现了无可争议的证据,表明LLM在评论内容中得到了利用,尽管不同领域的程度各不相同。

最值得注意的是,他们估计去年ICLR、NeurIPS、CoRL和EMNLP的评论中有6.5-16.9%的句子可能被人工智能做了基本校对之外的有意义的修改。另一方面,他们在自然刊物发表的评语中没有发现统计学意义上的重大偏差。这些发现与人们的预期一致,即机器学习专家可能是技术的早期采用者,因为他们拥有丰富的知识和使用工具的能力。

补充分析揭示了应用 LLM 的方式和时间。在临近截止日期前提交的评论,或者来自不太愿意与作者进行讨论的审稿人的评论,与更高的预期人工智能影响相关。缺乏学术参考文献或论文评价内容差异较小的评论同样与人工智能信号的放大有关。

虽然这项调查无法证明因果关系,但这些模式引起了人们的疑问,即是否轻松和时间压力可能会影响一些评审人的判断,并可能使评审过程出现偏差。从更广泛的意义上讲,在人工智能广泛存在的情况下,内容的同质化引发了人们对具有代表性的专业技能和多样性的更多担忧,而长期以来,同行评审一直是人工智能的有力支持。

创作者们强调,这只是一种新方法的初步发现,跨学科合作仍势在必行。尽管如此,他们的高层次估计和语言线索为有条不紊地检查人工智能对学术对话和信息形成的蔓延而又微妙的影响提供了一个宝贵的起点。只有通过这样透明的衡量标准,我们才能保证这些强大的工具能够增强而不是不适当地引导人类的决策和交流。

参考文献

  1. https://doi.org/10.48550/arXiv.2403.07183

单击 TAGS 查看相关文章 :

AI|同行评审|研究|社会

关于作者

  • 迪鲁万-赫拉特

    Dilruwan Herath 是一位英国传染病医生和制药医疗主管,拥有超过 25 年的经验。作为一名医生,他专攻传染病和免疫学,并坚定地关注公共卫生影响。在他的职业生涯中,Herath 博士曾在大型全球制药公司担任过多个高级医疗领导职务,领导变革性临床变革并确保获得创新药物。目前,他担任制药医学院传染病委员会的专家成员,并继续为生命科学公司提供咨询。不从事医学工作时,Herath 博士喜欢画风景画、赛车运动、计算机编程以及与他的小家庭共度时光。他对科学和技术保持着浓厚的兴趣。他是 DarkDrug 的 EIC 和创始人。

在 Pinterest 上 Pin It

黑暗药物

免费
查看