利用大数据和人工智能进行更智能的骨髓增生异常综合征临床试验
来源:Frontiers
语言:英语,所在国:美国
分类:科学研究 , 关键词:AI与医疗健康
骨髓增生异常综合征(MPNs)包括真性红细胞增多症(PV)、原发性血小板增多症(ET)和原发性骨髓纤维化(PMF),是一类起源于携带驱动突变的造血干细胞的慢性血液癌症,这些突变激活了造血过程中的细胞因子信号传导通路。MPNs与高症状负担及潜在致命事件相关,如血栓形成和进展为更具侵袭性的骨髓肿瘤。尽管共享驱动突变和起源细胞,MPNs具有极其异质性的临床病程。其表型异质性加上自然病程跨越数年至数十年,使得个性化风险评估变得困难。为了确定最有可能从改善无血栓、无进展或总生存率的临床试验中受益的患者,需要进行风险评估。为了使MPN试验能够在可行的样本量和研究持续时间内针对生存终点进行有力设计,需要更高敏感性和阳性预测值的风险模型。传统的线性MPN风险模型通常由二元变量组成,在针对异质性表型患者的试验中表现不佳。使用机器学习(ML)可以实现准确而个性化的风险建模,从而加速以生存为重点的干预性MPN试验,因为这些模型经过训练可以识别大型数据集中的复杂预测模式。随着电子健康记录中大量纵向数据的自动化检索,使用这些数据开发用于准确和个性化风险评估的ML模型具有巨大潜力。
MPN临床特征、疾病进展和试验终点背景
骨髓增生异常综合征(MPNs)——包括真性红细胞增多症(PV)、原发性血小板增多症(ET)和原发性骨髓纤维化(PMF)——是一类起源于获得突变基因的造血干细胞的慢性血液恶性肿瘤,这些基因负责激活细胞因子信号传导通路,从而引发造血作用。超过85%的MPN患者携带相互排斥的驱动突变,主要位于Janus激酶2(JAK2)、钙网蛋白(CALR)和血小板生成素受体(MPL)基因中,这些突变在疾病的发生和发展中起关键作用。然而,MPNs的发病机制更为复杂,涉及遗传、表观遗传、微环境和炎症异常之间的复杂相互作用。因此,其表型和临床病程高度异质,常伴有各种症状、血栓事件和进展为更具侵袭性的骨髓肿瘤。“MPN进展”在此特指ET/PV和前纤维化PMF向继发性骨髓纤维化(SMF)或ET/PV/PMF/SMF向加速期MPN(AP-MPN),或向急性髓系白血病(AML)的转变,这些预后定义事件从初次诊断到发生的时间跨度为几年至几十年不等。不幸的是,目前尚无预测MPN进展的模型,现有的生存模型无法捕捉生物或临床异质性,通常依赖于不可改变的风险因素,如年龄。
推测的MPN进展临床和分子风险因素包括高龄;既往血栓史;白细胞计数升高(尤其是中性粒细胞)和较高的中性粒细胞与淋巴细胞比值;驱动突变的类型及其等位基因频率(例如JAK2, CALR, MPL)或三阴性疾病;高危共存突变(如参与表观遗传调节的基因IDH1/2,转录调节基因TP53, RUNX1 和 IKZF1,RNA剪接基因SF3B1, U2AF1 和 SRSF2);细胞遗传学异常;以及促炎标志物。多种预后评分系统(如IPSET、AAA、DIPSS plus、MIPSS-ET/PV、MIPSS70和GIPSS)结合了上述不同风险因素。众多可能的进展风险因素加上MPNs的慢性异质性,给分类、预后和结果预测带来了重大挑战,也阻碍了能有效预防疾病进展和改善生存的疗法的发展。
预防MPN进展及其相关并发症仍然是临床护理的关键,以减少并可能消除MPN引起的超额死亡率。遗憾的是,与大多数肿瘤试验不同,MPN试验并未优先考虑无进展生存(PFS)或总生存(OS)作为主要终点。相反,它们的目标是替代终点,如血液学反应、脾脏体积减小(SVR)和症状改善,这些并不一定预示生存。由于MPN并发症和死亡在短时期内(1-3年)随机选择的亚组中较为罕见,除非更准确地识别高危人群,否则试验将无法达到生存终点。其次,虽然OS是一个定义明确但难以实现的终点,PFS或无事件生存(EFS)更容易实现,但也必须明确定义。
FDA批准的MPN靶向治疗试验均未以PFS或OS为主要终点。COMFORT-1和2试验比较了JAK抑制剂(JAKi)鲁索替尼与安慰剂和最佳可用疗法对中高危骨髓纤维化的疗效,使用SVR和症状反应作为主要终点。尽管这些试验并未针对生存率进行设计,但后续分析显示有生存获益的证据。基于这些分析,一个类似的为期两年的试验若要检测OS差异,需要大约1,900名患者(基于风险比0.70 [95% CI, 0.54–0.91];80%功效,α=0.05,1:1随机分配)。在COMFORT试验之后,大多数研究采用了类似的SVR和症状反应终点。
尽管疾病修饰疗法(如干扰素-α)在耗尽MPN干细胞池和实现持久分子缓解方面显示出前景,但类似的主要终点挑战仍然存在。在PROUD-PV/CONTINUATION-PV试验中,评估了罗佩吉干扰素α-2b与羟基脲对照,主要终点是非劣效性,即实现完全血液学反应和正常脾脏大小(PROUD-PV)和改善疾病负担(CONTINUATION-PV)。随后通过延长6-7年的随访分析评估了无事件生存(EFS),结果显示罗佩吉干扰素α-2b组的EFS显著较高(0.94 vs 0.82;对数秩检验;p=0.04)。然而,临床事件较少,中位EFS尚未达到。
已提出将分子反应终点,如_JAK2 V617F_变异等位基因频率(VAF)降低,作为疾病修饰活性或生存的代理指标用于临床试验设计,但其与临床结局的相关性仍存在争议。鲁索替尼和罗佩吉干扰素均在ET和PV中表现出持续的_JAK2 V617F_VAF降低,与改善的PFS和EFS相关,但与OS无关。虽然这些报告对VAF作为代理指标的实用性是有希望的,但尚不清楚它能否可靠预测生存结果或用于选择/风险分层适合生存功率试验的患者。
我们进行了一项前瞻性研究,涵盖了107名ET、PV和PMF患者,比较了_JAK2 V617F_全血VAF与“MPN适应性”——一种基于_JAK2 V617F_分化和克隆扩增的谱系特异性偏倚的新生物标志物。我们发现_JAK2 V617F_驱动的MPN干细胞和祖细胞适应性与EFS之间的关联比_JAK2 V617F_VAF与EFS之间的关联更强,且“MPN适应性”的曲线下面积(AUC)显著高于_JAK2 V617F_VAF四分位数(0.8 vs 0.67, p=0.003)。这项工作突显了尽管存在共同的驱动突变,但MPN异质性表型背后的复杂生物学,以及使用临床可用测试识别最高风险患者用于临床试验的挑战。
尽管提出了MPN治疗耐药性和进展的机制,但这些结果的确切原因和预测因素仍不明朗,当前的风险分层模型在许多方面存在不足。例如,在ET中,目前尚无预测进展的模型,尽管ET中的_CALR_和_MPL_突变比_JAK2_突变的ET具有更高的进展为SMF的风险,这已在至少三个近期独立队列中得到证实。同样在PV中,ELN/NCCN风险分层模型(仅通过年龄>60岁或血栓史定义“高危”PV)仅预测每年2-3%的血栓概率,并不预测进展风险。这种最佳阳性预测值(PPV)约为0.03,意味着短期研究需要数千名患者(图1)。
图1展示了标准MPN试验注册与高效MPN试验注册之间的对比,后者利用人工智能(AI)支持的试验匹配和基于机器学习(ML)的高阳性预测值(PPV)风险分层模型,显著减少了队列规模和招募时间。该图由BioRender创建。Bliss, J. (2024) https://BioRender.com/l21l866.
CYTO-PV研究纳入了广泛的PV患者,报告了在严格控制血细胞比容(目标<45%)的组中,三年内的血栓发生率为2.7%。尽管这一比率显著高于一般人群,但仍不足以证明一项为期两年的随机对照试验(RCT)能够检测到血栓结局统计显著的50%减少,这需要数千名患者。然而,如果可以使用更精确的风险模型专门富集这2.7%的患者,所需的样本量将大大减少,从而使以无血栓生存为目标的RCT成为可能。
在这种情况下,ML作为一种强大的工具,可以应对MPN研究中的这些重大挑战。ML技术可以通过综合数据集动态建模人群和患者级别的风险,克服传统方法经常面临的过拟合和确认偏差。通过客观识别可操作的风险因素并提供个性化预测,ML实现了针对疾病进展和事件风险的精准肿瘤学方法。
机器学习在临床研究和试验中的介绍
ML在医学中有广泛的应用,从放射学和病理学的图像识别用于诊断分析,到自然语言处理(NLP)和大型语言模型(LLM)用于将电子健康记录(EHR)中的非结构化数据转换为研究就绪的数据。ML的具体应用案例包括利用NLP高效地将EHR中的病理报告和其他自由文本子结构化文档转换为数据表,其性能已得到验证。此外,组织病理学全切片图像(WSI)的分析可用于支持分类和预后。在MPNs中,ML可以帮助临床医生进行疾病诊断、分类和预后,同时也能实现更精确的风险分层模型,以改善EFS(如减少血栓、AML转化或死亡)。
ML包括旨在准确预测结果的算法,不同于侧重于协变量之间关系推断的传统统计分析。在ML中,分类器和回归算法之间存在关键区别,这取决于它们设计预测的输出变量性质。分类器算法用于预测分类输出变量,例如患者在诊断后两年是否存活。相比之下,回归模型用于建模连续结果,如估计中位生存时间。虽然分类器算法将个体分类为不同的组别,但回归模型提供定量估计,然后可以离散化,从而允许更细致的预测。
此外,ML模型传统上分为监督和无监督两类,尽管还有其他策略,如强化学习和半监督学习。监督ML涉及使用带有已知标签的训练数据集创建模型,然后对其进行测试以确保其适用性和泛化能力。监督算法通过最小化损失函数(即预期结果与实际结果之间的差异)来提高准确性,从而优化模型超参数以预测概率或连续值。在MPN研究中,监督ML的一个例子是我们小组使用随机森林ML模型对PV患者的血栓预测因子进行分类。相反,无监督ML在结果未知时有价值,可以发现新的数据模式。无监督算法无需直接标签即可学习这些关联。例如,在MPN研究中,贝叶斯网络用于分析MPN患者的基因数据并发现MPN中的基因组分组。
总体而言,临床试验资格标准复杂且非标准化,使得患者筛选成为一个手动且低效的过程。因此,不足为奇的是,不到3%的肿瘤患者参与RCT,约20%的II-III期肿瘤试验因招募不佳而失败。最近的一项调查显示,从研究计划到启动的中位时间超过700天,招募资源耗费约12亿美元的研究资金,并占药物开发时间表的30%。传统临床试验设计和招募往往未能捕捉患者群体的复杂性和异质性。最近的努力验证了用于试验匹配的ML算法,如IBM Watson用于乳腺癌和肺癌试验的患者匹配,显示出高准确性和阳性预测值。例如,在乳腺癌中,临床试验匹配临床决策支持系统(CDSS)实现了超过80%的准确率,而IBM Watson的模型在肺癌试验中实现了91.6%的准确率,表明其在每秒15.5秒内将数千名患者的指标与资格标准相匹配的有效性。
除此之外,还创建了开源工具,取得了令人鼓舞的结果,包括儿科白血病患者的试验匹配和ClinicalTrials.gov上的研究。私人实体也在通过ML改进试验资格方面取得了进展。Liu等人利用先进的统计方法,称为Trial Pathfinder,对超过60,000名晚期非小细胞肺癌患者的数据进行了分析,评估单个特征如何影响机器学习预测。
ML在匹配患者与适当临床试验方面有两种主要方法。第一种方法,通常称为“结构化然后匹配”,涉及将资格标准重新格式化为标准化格式。这使得可以直接与患者数据进行比较,简化初始筛选过程。相反,“端到端”系统利用ML识别患者数据和资格标准中的模式。这些模式随后用于直接匹配患者与相关试验,提高效率。这些例子共同展示了一个未来,其中临床试验领导者可能会放宽特定标准以简化招募而不损害关键试验终点。
除了提高试验匹配效率外,ML还可以增强MPN风险分层策略,以识别最有可能从干预中受益的患者。完成的试验结果令人失望,尤其是在资源利用高的情况下。例如,在美国十大最畅销药物中,对于每位受益于获批药物的患者,有3-24名患者并未受益。在MPNs中,五种FDA批准的药物(其中四种为JAKi)基于SVR、症状改善和/或血液学反应获得批准,但并未针对生存获益进行设计。尽管有一些事后证据表明生存获益,JAKi药物并不是以防止疾病进展或延长生命为目标使用的。相比之下,一些肿瘤药物由于未能改善OS而未获批准,尽管它们改善了PFS。其他药物则基于长期使用以防止复发而获得批准,但没有OS获益。例如,乳腺癌内分泌治疗中,芳香化酶抑制剂(如来曲唑)的延长使用(10年对5年)显著降低了复发风险,尽管对总生存无影响(5年OS分别为93%和94%,HR 0.97;P=0.83)。因此,ML在这一领域的集成对于MPNs来说是一个新兴的兴趣点,它可以提高识别最有可能从长期治疗中受益的患者的准确性,从而改善整体治疗结果。
ML具有革命临床试验资格标准和改进风险分层的能力,通过自由探索强大数据以深入了解与感兴趣结果相关的临床特征,从而实现更针对性、高效的试验和更好的患者结果。我们的方法旨在利用大数据和ML开发准确的预测模型,使以生存终点为评价的临床试验更加可行。
讨论和ML在MPN研究和临床试验中的未来方向
正如前所述,MPNs的异质性和复杂性给疾病的进展、发病率、治疗反应和死亡率的准确预后带来了重大挑战。ML在MPN研究和临床实践中的应用正在成为发现引擎和该领域的未来。ML在MPN诊断和药物发现中的应用已在其他地方描述过。这里,我们关注ML在MPN预后中的应用及其在临床试验设计和招募中的部署(图1)。
ML系统在表征MPN进展方面取得了一些进展。Bejan等人开发了一种算法,使用NLP结合MF关键词、药物和ICD编码的否定检测来分类MF,并与Synthetic Derivative去识别研究EHR中的_JAK2 V617F_检测算法相结合。该组能够预测MF和_JAK2 V617F_状态,表明创建带有回顾性基因分型的MPN数据库是可行的。Li等人使用加权基因共表达网络分析(WGCNA)鉴定了与原发性MF相关的基因,包括MPL, SLC4A1, CALR 和 EPB42。支持向量机表现出高达0.922的AUC。Shen等人应用LASSO模型通过血小板转录组研究预测继发性MF,展示了疾病风险分层和进展的原理验证。Ryou等人开发了一种ML系统,用于测量骨髓网状纤维化,这是一种连续的纤维化指数(CIF),当与巨核细胞分析结合时,在区分ET和前纤维化MF方面表现出色(AUC 0.94),并应用于II期临床试验结果的分析。Verstovsek等人开发了一种随机生存森林(RSF)模型来预测羟基脲耐药性。复合ROC-AUC为0.71,表明可使用易于获取的临床变量预测患者在开始治疗前发展为羟基脲耐药的可能性。ML还用于评估其他恶性肿瘤的耐药可能性以及预测药物协同作用。Mora等人应用RSF模型结合二次MF诊断时的表型和基因型变量,在MYSEC PM(由PV和ET继发的骨髓纤维化-预后模型)数据库中识别血栓风险预测因子。作者表明,该模型能够预测二次MF诊断后的血栓风险。
鉴于ML发展的当前指数轨迹及其在MPN研究和治疗中的预期用途,开发稳健的风险分层模型至关重要。我们解决为生存设计MPN试验挑战的总体解决方案是利用大数据和ML能力,开发准确的生存预测模型,以富集高风险患者。为了包括自动化工作流程并将ML方法纳入大数据分析,我们的团队建立了一个专注于MPN的研究数据存储库(RDR),整合了精心策划的来自我们MPN特定研究电子数据捕获(REDCap)数据库的信息,集成了EHR的原始和处理数据,并纳入了CDC国家死亡指数等外部实体的数据。这一全面集合涵盖所有相关的临床、实验室和结果数据,并根据观察性医学结果合作伙伴关系的通用数据模型(OMOP-CDM)系统组织。目的是利用这些大数据和信息工具开发和全球验证基于ML的风险预测模型。
如果ML模型经过严格验证,注意力可以转向基于ML驱动的MPN临床试验,重点关注使用此类模型进行有针对性和高效的患者招募。能够识别对临床终点(如一线治疗耐药、MPN相关血栓栓塞、疾病进展为MF或白血病等)风险最高的患者,将使临床研究人员能够更快地进行试验招募并加速感兴趣事件的发生时间。这应显著减少研究的时间和成本,而这些挑战迄今为止一直阻碍着MPN领域的发展。
在这篇文章中,我们探讨了ML作为MPN临床研究领域变革力量的作用。MPNs的内在复杂性和慢性病程在患者诊断、预后和治疗干预方面构成了实质性障碍。ML提供了一种有前途的解决方案,能够有效地筛选大量数据并发现传统分析可能遗漏的模式。ML算法在提高患者分层和预测MPN疾病轨迹方面的前景尤为值得注意。随着ML算法变得更加复杂并经过外部验证,其集成到临床试验中将允许对MPNs进行准确的预后,简化试验患者选择,更高效地评估新治疗策略的有效性,并提升我们改善MPN发病率和死亡率的能力。MPN研究和治疗的未来将与ML的进步紧密交织,有望开启一个优化患有这些具有挑战性恶性肿瘤患者的个性化医疗新时代。
(全文结束)