大型语言模型作为人工智能工具在全球临床研究人员中的学术研究和出版中的应用
来源:Nature
语言:英语,所在国:英国
分类:科技 , 关键词:AI与医疗健康
随着自然语言处理(NLP)和人工智能(AI)的突破,大型语言模型(LLMs)在学术研究中的使用显著增加。例如生成式预训练转换器(GPT)等模型被研究人员用于文献综述、摘要筛选和手稿起草。然而,这些模型也带来了提供有争议的科学信息的挑战。我们的研究提供了全球研究人员对LLMs当前趋势和未来影响的看法快照。
采用横断面设计,我们调查了2020年至2024年间参加哈佛医学院全球临床学者研究培训证书项目的226名来自59个国家、65个专业的医疗和护理研究人员。大多数(57.5%)受访者在学术环境中工作,其PubMed索引出版物中位数为7(2-18)。198名受访者(87.6%)了解LLMs,且熟悉LLMs的受访者拥有更多的出版物(p < 0.001)。之前使用过LLMs的受访者中(18.7%,n = 37),主要将其用于语法错误和格式(64.9%),但大多数人(40.5%)并未在其论文中承认使用LLMs。50.8%的知情受访者(n = 95)预测LLMs将对未来产生积极影响,而32.6%的人不确定其范围。52%的知情受访者(n = 102)认为LLMs将在语法错误和格式(66.3%)、修订和编辑(57.2%)、写作(57.2%)和文献综述(54.2%)方面产生重大影响。58.1%的知情受访者认为期刊应允许在研究中使用AI,78.3%的人认为应制定法规以避免滥用。
鉴于研究人员对LLMs的看法以及对LLMs的认知与已发表作品数量之间的显著关联,我们强调了制定全面指南和伦理框架以管理学术研究中AI使用的必要性,并解决当前挑战。
引言
大型语言模型(LLMs)代表了自然语言处理(NLP)和人工智能(AI)的重大突破。在2017年之前,尽管NLP模型可以执行多种语言处理任务,但它们并不容易为非领域专家所用。2017年引入的Transformer架构彻底改变了这一领域,使NLP模型能够通过简单的提示高效地合成和分析数据集。这使得全球范围内大规模使用成为可能,大大扩展了高级语言处理工具的可及性。Transformer技术促成了两个重大进展:双向编码表示转换器(BERT)和生成式预训练转换器(GPT),它们采用了半监督方法,获得了出色的泛化能力,能够解释和生成类人类文本。ChatGPT于2022年推出,因其易用性和用户友好界面而在各个领域引起了广泛关注。LLMs提供了AI驱动的支持,特别是在文献综述、文章总结、摘要筛选、数据提取和手稿起草方面。由于减少了工作量和提供的便利性,越来越多的研究人员开始将LLMs如ChatGPT、Perplexity、Meta的Llama(前身为Facebook)、Google Bard和Claude应用于学术研究,这在ChatGPT发布后文章数量迅速增加中得到了体现。
虽然在研究中使用LLMs有许多效率上的提升,但它们无法替代人类,特别是在需要细致理解和原创思维以及责任的情况下。深入研究发现,LLMs还可以生成虚假引用、快速生成大量有争议的信息,并放大偏见。这导致了负面的伦理影响,如作者身份的完整性以及掠夺性行为的激增,进而形成了“AI驱动的信息流行病”。还存在公共健康威胁的风险,例如由幽灵撰写的科学文章、假新闻和误导性内容。为解决这些问题,首先需要了解研究人员对LLMs的态度,评估他们对LLMs的意识和使用情况。
我们的研究对参加哈佛医学院全球临床学者研究培训(GCSRT)项目的一年期认证课程的医疗和护理研究人员进行了独特分析。我们旨在提供有关AI在研究和出版中使用现状及其未来前景和影响的见解。我们坚信,我们的研究结果可以帮助期刊制定关于出版过程中使用AI工具的未来政策,从而确保医学出版物的可信度和维护其完整性。
方法
研究设计和人群
这项全球调查采用横断面设计,于2024年4月至6月期间在哈佛医学院GCSRT项目的多样化医疗和护理研究人员中进行。该计划包括来自50多个国家和6个大洲的各专业、职业阶段、年龄组和性别研究人员。在该计划中,所有参与者都接受了从统计分析到出版和资助写作的每个研究阶段的高级培训。因此,他们是评估研究中AI工具使用情况的理想群体。
研究目标
我们有三个主要目标。第一,评估全球研究人员对LLMs的认知水平;第二,确定LLMs目前在学术研究和出版中的使用情况;第三,分析AI工具在医学研究和出版中的潜在未来影响和伦理影响。
入选标准
- (a) 包括标准:2020年至2024年间参加GCSRT项目的任何队列的医疗和护理研究人员,不论其所在国家、研究兴趣、研究活跃年份、年龄或性别。特别包括是班级WhatsApp群组成员并且能够熟练阅读和书写英语的研究人员。
- (b) 排除标准:不属于上述指定年份队列的研究人员,无法通过班级WhatsApp群组联系或不熟练阅读和书写英语的研究人员被排除在外。未接受该计划培训的医疗和护理研究人员以及非医疗研究人员未受邀参与本研究。
问卷开发和调查分发策略
调查使用Google Forms以英语编写,共分为4个部分:(1)背景,(2)对LLMs的认知,(3)LLMs的影响,(4)未来政策。每个问题都经过仔细审查以确保其相关性、有效性和无偏性。数据收集者自愿从GCSRT项目的参与者中选出。每个目标队列的数据收集者负责通过WhatsApp和LinkedIn个人消息与目标人群联系。调查对象的联系方式从非官方班级WhatsApp群组和个人网络中获得。每位潜在参与者收到了总共3条个人消息,包括2次提醒,每次间隔7天。在获得知情同意后,共有226名来自59个国家的研究人员填写了Google调查表。
样本量和统计方法
Google调查链接分发给了GCSRT项目的5个队列,共550名医疗和护理研究人员。考虑到5%的误差范围、95%的置信水平和0.8的检验效能,计算得出总样本量为220。描述性统计数据显示,对于正态分布的连续数据,表示为均值±标准差;对于非正态分布的连续数据,表示为中位数(四分位距);对于分类数据,表示为频率和百分比。使用Shapiro-Wilk检验测试连续数据的正态性。正态分布数据使用单因素方差分析,非正态分布数据使用Kruskal-Wallis检验。分类数据使用卡方检验或Fisher精确检验。定性数据通过主题分析研究。所有统计分析均在Stata MP版本17.0(StataCorp,College Station,TX,USA)中进行。所有检验均为双尾检验,当P < 0.05时被认为具有统计学意义。
伦理考虑
根据赫尔辛基宣言,本研究得到了巴基斯坦拉合尔阿勒马·伊克巴尔医学院/真纳医院伦理审查委员会的批准(参考编号:ERB 163/9/30-04-2024/S1 ERB)。该研究未得到哈佛医学院的支持或认可,但及时通知了GCSRT项目管理层。每位受访者的参与同意是在问卷的第一个必答问题中收集的。所有个人信息如电子邮件地址、国籍和年龄都被严格匿名处理并保密。受访者被告知研究的自愿性质以及首席研究员的联系方式。
结果
我们分析了来自59个国家、从事65个不同医疗和护理专业的226名全球研究人员的回复。在不同来源国(补充表S1)中,最常见的两个地区是美洲地区(23.5%)和东南亚地区(23.5%)。表1显示了调查受访者的学术和人口统计特征,并比较了对LLMs有认知和无认知的受访者。调查受访者的PubMed索引出版物中位数为7(四分位距:2-18)。198名(87.6%)调查受访者之前对LLMs有所了解。除PubMed索引出版物数量外,其他任何特征均未与对LLMs的认知显著相关。与不了解LLMs的受访者相比,了解LLMs的受访者拥有更多的出版物(p < 0.001)。表2显示了198名知情受访者的LLMs知识、态度和实践。大多数受访者对LLMs有些熟悉(33.3%)和中等熟悉(30.8%)。在这些知情受访者中,之前使用过LLMs的受访者(18.7%)主要用于语法错误和格式(64.9%),其次是写作(45.9%)和最后是修订和编辑(45.9%)。按医学研究活跃年份分层后,这些变量均未显著相关。图1显示了知情受访者对LLMs在出版过程各个阶段未来影响的看法。多数人认为LLMs将产生重大整体影响(52.0%)。受重大影响的领域包括语法错误和格式(66.3%)、修订和编辑(57.2%)以及写作(57.2%)。受影响较小或中等影响的领域包括方法(74.3%)、期刊选择(73.3%)和研究思路(71.1%)。表3显示了知情受访者对LLMs未来前景的看法。多数人认为将带来积极影响(50.8%),但相当一部分人(32.6%)不确定。虽然大多数受访者认为期刊应该允许在出版中使用AI工具(58.1%),但大多数(78.3%)也认为应制定一些法规(如修改后的期刊政策、AI审查委员会、检测LLMs使用的工具)以使出版中的AI工具合乎伦理。按医学研究活跃年份分层后,这些变量均未显著相关。在我们的调查中,79%(n = 179)的受访者愿意分享他们对LLMs未来前景和挑战的整体看法。他们的观点分为一个或多个类别(图2)。28%(n = 64)的受访者认为LLMs是出版过程中的有用工具,尤其是在系统地组织和撰写大型主题方面。此外,约四分之一的受访者(n = 55)表示,使用LLMs后,研究人员可以花更少的时间在研究项目的不同部分,如文献综述、数据分析和手稿准备上。然而,调查受访者还揭示了在学术研究中使用LLMs的若干关切和挑战。14%(n = 33)的受访者表达了不确定性或缺乏经验。8%的受访者(n = 18)提到了对LLMs在学术研究和出版中使用的伦理担忧,包括潜在的偏见、隐私问题和抄袭问题。
讨论
AI在全球范围内产生了巨大的影响,研究领域也不例外。我们的研究评估了研究人员对LLMs的认知、使用趋势和未来前景,以更好地分析这一影响。它捕捉了来自59个国家和65个专业的医疗和护理研究人员的看法。我们的受访者主要属于医学亚专科(64.6%),而非外科或护理亚专科,类似于Abdelhafiz等人研究中的受访者特征(68%)。我们的受访者大多在学术环境中工作(57.1%),其次是公共和私人医疗环境,类似于Abdelhafiz等人研究中75%的参与者来自大学或研究中心。具有10年以上、6-10年和0-5年研究经验的受访者分别为21.7%、31.4%和46.9%,表明我们的目标人群很好地代表了处于职业生涯不同阶段的学术人员。
绝大多数受访者(87.6%)了解LLMs,这与约旦的一项针对医学生的调查(85%)相似,高于巴基斯坦的一项研究(21.3%)。GCSRT参与者对LLMs高度了解的一个合理解释可能是他们已经完成了高级研究培训,并可能在此期间接触到了LLMs在当代研究和出版中的应用。此外,他们对研究的浓厚兴趣可能使他们探索该领域的最新进展,其中包括LLMs和AI工具的使用。有趣的是,了解LLMs的参与者比不了解LLMs的参与者拥有更多的出版物(p < 0.001)。这一发现与先前的研究一致,报告指出,对LLMs的更大熟悉度和访问权限与学术作者的预印本和出版物产出比率更高相关,可能是因为LLMs研究的快速发展以及使用LLMs进行写作辅助的结果。其他变量如年龄、受访者的国家或实践领域与对LLMs的认知之间均无显著相关性。绝大多数了解LLMs的受访者报告称,在2022年之前不知道AI工具(86.4%)。这与2021年5月至2023年7月期间关于LLMs在医学研究中的出版轨迹相吻合。
81.3%的知情受访者从未在他们的研究项目或出版物中使用过LLMs。这与Eppler等人早先的研究形成对比,其中近一半的受访者报告曾在学术实践中使用过LLMs。在那些曾经在出版物中使用过LLMs的受访者中,大多数对其在语法错误校正、编辑和手稿写作等任务中的使用频率评级为中等到频繁。这些结果与Eppler等人的研究一致,该研究表明LLMs在科学出版中最常见的用途是写作(36.6%),其次是检查语法(30.6%)。借助基于NLP的LLMs,可以方便地使用分类模型和基于算法的句子构建来纠正语法错误。尽管LLMs在学术写作的各个组成部分中频繁使用,但有相当比例的受访者(约40%)未在其出版物中承认使用LLMs。研究人员可能不透露其研究论文中包含AI工具的原因有很多。首先是研究人员对所使用的技术缺乏信息或理解,导致他们对AI在其研究中的集成程度不知情。其次是对AI使用的怀疑或负面看法,如认为机器被用来生成提案或讨论其研究的科学内容。因此,是否在研究中承认使用AI仍然是一个伦理困境。出版商可能会要求作者提交或包括一份声明,说明是否使用了AI系统进行写作。
图1和图2、表3提供了全球研究人员对LLMs未来前景和挑战的见解。图1显示了对LLMs变革潜力的广泛信念,略多于一半的受访者预计会有重大整体影响。具体而言,LLMs被认为在未来对语法错误和格式、修订和编辑、写作和文献综述等方面产生最显著的影响。这些结果与现有文献一致,表明LLMs可以大大提高这些任务的效率和准确性,从而促进更快、更高质量的学术输出。相反,方法、期刊选择和研究思路等领域被认为受影响较小,反映了对AI评估研究设计和期刊适配性的担忧。
如表3所示,略多于一半的参与者对LLMs的影响持积极看法,但约三分之一的人仍不确定。这种不确定性凸显了对AI技术伦理影响和潜在滥用的重大关切。伦理问题已在现有研究中得到充分记录,涉及的问题包括数据隐私、虚假信息和AI生成内容中可能出现的意外偏见。此外,我们的研究表明,尽管大多数受访者支持在出版中使用AI工具,但在实施监管措施方面达成了强烈共识,如修改后的期刊政策、AI审查委员会和检测LLMs使用的工具。这一发现与文献中提出的更广泛的伦理指南一致,倡导在敏感领域(如医学研究)部署AI时建立强有力的监督和伦理框架,以减轻相关风险。有趣的是,对AI伦理使用的看法因经验水平而异。在我们的研究中,具有10年以上研究经验的参与者更有可能对AI工具持积极态度,并支持在受监管条件下使用这些工具,但这并不是统计显著的。
结论
自LLMs出现以来,学术写作学科发生了显著变化,越来越多的研究人员在研究出版的不同阶段纳入了这些工具。然而,随着LLMs应用的增加,对其有效性、责任性、潜在剥削和伦理影响的关注也在增加。虽然普遍认识到LLMs对某些方面学术研究和出版的有益影响,但解决相关伦理风险和疑虑至关重要。我们的研究强调了制定全面指南和伦理框架以规范医学和护理研究中AI使用的必要性。LLMs的日益广泛应用迫切需要及时实施这些监管政策,以确保其安全、负责任和有效的使用。
局限性
我们的研究存在某些方法论局限性,需要加以解决。首先,由于这是横断面研究,无法从研究结果中得出因果推断,且研究结果的时效性会随着时间而变化。其次,尽管我们努力维护调查回复的匿名性,但研究结果仍可能存在社会期望偏差。第三,由于我们的研究人群仅限于GCSRT项目的参与者,他们对学术研究有广泛的了解,可能会引入选择偏差,限制研究结果的普遍性。第四,我们的研究未收集与LLMs认知相关的几个受访者的特征,如性别、教育水平和收入水平。最后,由于使用WhatsApp和LinkedIn进行数据收集,我们的研究容易受到抽样偏差的影响。使用LinkedIn的参与者可能同时使用其他平台进行研究,而使用WhatsApp的参与者可能较年轻且更熟悉技术和AI。因此,某些人口统计学特征的过度代表性可能会影响结果的外部有效性。
(全文结束)