家医健康
国内健康世界健康探索科学

免疫“指纹”助力复杂疾病的诊断——斯坦福医学研究

新闻时间:2025年2月21日 - 更新时间:2025-02-23 23:59:16
来源:Stanford Medicine
语言:英语,所在国:美国
分类:医学研究 , 关键词:健康研究

免疫细胞(上图)通过重新排列DNA片段(第二面板)生成高度可变的受体,以识别像细菌(第三面板中为绿色)这样的威胁。确定“成功的”受体(第四面板)有助于诊断复杂疾病。

免疫学 2025年2月21日

斯坦福大学医学院的研究人员设计了一种方法,挖掘免疫系统内部丰富的数据库,以诊断包括糖尿病、COVID-19反应和流感疫苗在内的多种疾病。尽管他们设想这种方法可以同时筛查多种疾病,但这种基于机器学习的技术也可以优化用于检测复杂且难以诊断的自身免疫性疾病,如狼疮。

你的免疫系统保存着一生中遇到的威胁信息——一个生物学上的Rolodex(名片夹)。这些威胁通常是已经战胜的病毒和细菌;也可能是像疫苗这样的隐秘代理,它们被用来触发保护性免疫反应,甚至是健康的组织,在免疫交叉火力中被误认为是威胁。

研究人员开发的算法名为Mal-ID(用于免疫诊断的机器学习),在一项近600人的研究中表现出色,这些人有的健康,有的患有感染(包括COVID-19)或自身免疫性疾病(包括狼疮和1型糖尿病)。该算法仅通过分析他们的B细胞和T细胞受体序列和结构,就能成功识别出谁患有哪种疾病。

博士后学者Maxim Zaslavsky博士表示:“我们目前使用的诊断工具包并没有充分利用免疫系统内部记录的疾病信息。但我们的免疫系统通过B细胞和T细胞不断监视身体,这些细胞就像分子威胁传感器。结合来自免疫系统的两个主要分支的信息,我们可以更全面地了解免疫系统对疾病的反应以及自体免疫和疫苗反应的路径。”

Zaslavsky和Erin Craig是这项研究的主要作者,该研究于2月20日发表在《科学》杂志上。病理学教授Scott Boyd博士和遗传学及计算机科学副教授Anshul Kundaje博士是该研究的高级作者。

除了帮助诊断棘手的疾病外,Mal-ID还可以跟踪癌症免疫疗法的反应,并以有助于指导临床决策的方式对疾病状态进行细分。

Boyd说:“我们观察的一些情况在生物学或分子水平上可能有显著差异,但我们用广泛的术语描述它们,并不一定能反映出免疫系统的特异性反应。Mal-ID可以帮助我们识别特定条件的亚类,这可能会为我们提供线索,说明哪种治疗方法对某人的疾病状态最有效。”

为了破译蛋白质的语言,科学家们采用了一种类似于连接点的方法,使用基于大型语言模型的机器学习技术,这些模型类似于支持ChatGPT的技术。这些语言模型可以在大型数据集中寻找模式,如书籍和网站上的文本。经过充分训练后,它们可以利用这些模式预测句子中的下一个词等任务。

在这项研究中,科学家们应用了一个基于蛋白质训练的大规模语言模型,输入了数百万个B细胞和T细胞受体序列,并使用它将具有关键特征的受体归类在一起——由模型决定的相似结合偏好。这样做可以揭示是什么触发了一个人的免疫系统动员——产生大量T细胞、B细胞和其他免疫细胞,以攻击真实和感知到的威胁。

Zaslavsky说:“这些免疫受体的序列高度可变。这种变异性有助于免疫系统检测几乎任何东西,但也使我们更难解释这些免疫细胞的目标。在这项研究中,我们问自己是否可以通过使用一些新的机器学习技术解读这种高度可变的信息,解码免疫系统对这些疾病遭遇的记录。这个想法并不新鲜,但我们一直缺乏一种稳健的方法来捕捉这些免疫受体序列中的模式,表明免疫系统正在应对什么。”

B细胞和T细胞代表免疫系统的两个独立分支,但它们制造识别感染性病原体或需要消除的细胞的蛋白质的方式是相似的。简而言之,细胞基因组中的特定DNA片段会随机混合和匹配——有时还会添加额外的突变以增加多样性——从而创建编码区域,当蛋白质结构组装时,可以生成数万亿个独特的抗体(对于B细胞)或细胞表面受体(对于T细胞)。

这一过程的随机性意味着这些抗体或T细胞受体并不是专门为识别入侵者表面的特定分子而定制的。但它们的多样性确保至少有一些会与几乎所有外来结构结合。(自身免疫,即免疫系统攻击自身组织,通常——但不总是——通过T细胞和B细胞在早期发育中经历的一个筛选过程来避免,这个过程会消除有问题的细胞。)

结合会刺激细胞生成更多自身以发起全面攻击;随后具有匹配三维结构受体的细胞数量增加,提供了免疫系统针对哪些疾病或条件的生物指纹。

为了测试他们的理论,研究人员收集了一个包含超过1600万个B细胞受体序列和超过2500万个T细胞受体序列的数据集,这些序列来自593人,他们分别处于六种不同的免疫状态之一:健康对照组、SARS-CoV-2(导致COVID-19的病毒)感染者或HIV感染者、最近接种过流感疫苗的人、狼疮患者或1型糖尿病患者(均为自身免疫性疾病)。Zaslavsky和他的同事们然后使用他们的机器学习方法寻找相同条件下的人群之间的共性。

“我们比较了片段使用频率、生成蛋白质的氨基酸序列以及模型表示的受体‘语言’等特性。”Boyd说。

研究人员发现,T细胞受体序列提供了关于狼疮和1型糖尿病的最相关信息,而B细胞受体序列在识别HIV或SARS-CoV-2感染或最近接种流感疫苗方面最具信息量。然而,在所有情况下,结合T细胞和B细胞的结果都提高了算法根据疾病状态准确分类人群的能力,无论性别、年龄或种族如何。

“传统方法有时难以找到看起来不同但识别相同目标的受体群体。”Zaslavsky说。“但这正是大规模语言模型的强项。它们可以学习免疫系统的语法和上下文线索,就像它们掌握了英语语法和上下文一样。通过这种方式,Mal-ID可以生成对这些序列的内部理解,给我们带来前所未有的见解。”

虽然研究人员只在六种免疫状态下开发了Mal-ID,但他们设想该算法可以快速适应识别许多其他疾病和条件的免疫特征。他们特别感兴趣的是像狼疮这样的自身免疫性疾病,这些疾病往往难以诊断和有效治疗。

“患者可能要经过多年才能得到诊断,即使如此,我们给这些疾病的名称更像是伞状术语,忽视了复杂疾病背后的生物学多样性。”Zaslavsky说。“如果我们能用Mal-ID解开狼疮或类风湿性关节炎背后的异质性,那将具有重要的临床影响。”

Mal-ID还可能帮助研究人员识别许多条件的新治疗靶点。

“这种方法的美妙之处在于,即使我们一开始并不完全知道免疫系统针对的是哪些分子或结构,它仍然可以工作。”Boyd说。“我们仍然可以通过看到人们反应中的相似模式来获得信息。通过深入研究这些反应,我们可能会发现新的研究和治疗方向。”


(全文结束)