核苷酸数据库可改善科学和医学中的微生物识别
源新闻来源:Phys.org
语言:英语,所在国:美国
分类:健康研究
想象一下,为一个包含数亿本书的图书馆创建一个全面且可搜索的索引——这是一项单个人需要一生才能完成的任务。现在想象一下,发现许多这些书包含错误标记的页面或由不同作者撰写的段落。
这种双重挑战——创建一个高效的系统来快速定位信息并确保其准确性——反映了劳伦斯利弗莫尔国家实验室(LLNL)的研究人员在处理美国国家生物技术信息中心(NCBI)的核苷酸(nt)数据库时所面临的问题。这个庞大的DNA序列库涵盖了所有已知物种。
核苷酸数据库如NCBI nt有广泛的应用,从诊断感染和追踪疾病到监测环境健康、研究微生物组和开发生物工程解决方案。尽管NCBI nt包含了大量信息——数万亿个核苷酸——但由于其规模庞大,科学家们难以有效地使用它,据LLNL微生物学/免疫学小组负责人Nicholas Be表示。
Be和他的团队发现了现有资源中的两个主要问题。首先,与Centrifuge兼容的nt数据库版本自2018年以来就没有更新过。Centrifuge是一种流行的工具,可以帮助快速准确地分类DNA序列。
其次,他们发现nt数据库中存在大量错误、不一致和“污染”——在这种情况下,污染指的是错误标记的基因序列或包含不属于其所代表生物体的材料。这些受污染的序列可能会误导科学家,使他们错误地识别病原体或对样本中的微生物得出错误结论。
在《mSystems》期刊上发表的一项新研究中,LLNL研究人员通过创建新的、优化的nt数据库索引来解决这个问题,简化了科学家对各种样本中发现的微生物进行分类的过程,从土壤到人体,显著提高了识别和理解我们世界中无数微生物的能力。
研究人员利用先进的计算技术构建了更干净、经过整理的数据库,使其更适合Centrifuge使用,从而更容易确定样本中存在的微生物。
Be表示:“通过解决污染、过滤错误和更新内容,我们的新基于核苷酸的参考数据库极大地提高了宏基因组分类的准确性和可靠性。”
“我们的数据库大大减少了此类错误,从而实现了对未知DNA序列的稳健可靠的识别。它的实施将促进对微生物世界的更全面理解,无论样本来源如何。”
该新数据库的一个关键特点是采用了严格的质量控制措施。研究人员实施了一系列技术,旨在过滤掉污染物并提高分类的准确性——简而言之,他们清理了数据,确保只有相关且可信的序列进入数据库。
正如他们在论文中所展示的那样,使用新数据库显著减少了误导性分类,特别是对于疟疾寄生虫属Plasmodium。在涉及小鼠的研究中,之前的分析错误地标记了某些Plasmodium物种为显著,导致可能的数据误解。
研究人员重新分析了现有的宏基因组数据,以说明新数据库的有效性。他们发现,当使用新构建的与Centrifuge兼容的数据库时,假阳性结果显著减少,这可能导致对有害病原体存在的错误假设。
这项工作很有价值,因为来自各个领域的研究人员依赖准确的微生物识别来得出有效结论。在医学上,确定特定细菌或病毒的存在可以指导治疗决策。在环境科学中,了解微生物群落对于评估生态系统健康或生物修复努力至关重要。同样,在法医领域,准确识别在刑事调查中也至关重要。
生物信息学科学家兼合著者Jonathan Allen表示:“我们希望这个新数据库能提高人们对定期更新可搜索数据库所需大量计算资源的认识,确保随着新序列的筛选,实现全面的生物覆盖和准确性。”
除了提供参考数据库外,研究人员还强调,应将这类资源视为动态实体——随着时间的推移不断扩展和完善,就像需要定期更新以保持有效性的软件一样。这种方法反映了软件开发的最佳实践,即开发者不断改进和验证他们的产品,以确保它们可靠地服务于用户。
第一作者Jose Manuel Marti表示:“鉴于基因组数据的指数增长和分类数据库的持续变化,定期更新以服务科学界的需求是显而易见的。”他补充说,该团队已经收到了许多继续发布这一宝贵资源的请求。研究人员表示,考虑到巨大的计算挑战,这种高需求是可以理解的。
最耗时的步骤——索引过程——相当于在单个核心上运行超过五年的CPU(计算机处理单元)时间,尽管在实验室的大内存密度高性能计算集群上进行并行处理可以将其缩短到几周。这种异常高的计算要求突显了许多研究人员没有资源自行创建此类数据库的原因,因此LLNL的贡献对科学界特别有价值。
对于希望利用该资源的科学家和研究人员来说,新的去污染数据库可以从Langmead实验室Centrifuge索引网页上的Amazon Web Service存储中免费下载,从而为科学界提供了进行准确可靠的宏基因组分析的工具。但工作才刚刚开始。
Marti表示,该团队正在过渡到NCBI核心_nt数据库,这是一个子集,但仍是一个难以索引的nt版本,支持定期更新和新索引的公共发布。他们的文档化流程确保每次更新都有一致的质量控制。
除了Centrifuge之外,该团队还在努力将其数据库构建方法推广到其他分类引擎,并将其去污染、过滤和验证步骤应用于专门的数据库,例如用于病毒或真菌识别的数据库。他们的目标是创建一个动态的、社区驱动的资源,随着基因组测序和分类学的进步而发展,为研究人员提供最准确的宏基因组分析参考数据。
随着数据的快速增长,该团队还对开发创新策略感兴趣,例如使用分布式计算来帮助管理处理和分析这些数据库不断增长的计算需求。这可能涉及将分类问题分解成更易于管理的部分,使用多个专注于分类树不同层次的分类器,而不是依赖单一的综合分类器。
(全文结束)
声明:本文仅代表作者观点,不代表本站立场,全文内容涉及AI跨语种自动翻译。如有侵权请联系我们删除。