工程师开发创新的微生物组分析软件工具

科技
0 318

工程师开发创新微生物组分析软件工具

自1995年首次测序微生物基因组以来,科学家已经重建了数十万种微生生物的基因组构成,并且甚至设计出了一些方法,可以根据大量样本在皮肤、肠道、土壤、水域等处对细菌群落进行普查,从而催生了一个相对较新的研究领域,即所谓的宏基因组学。

解析宏基因组数据可能是一项艰巨的任务,就像试图组装几个庞大的拼图,其中所有的碎片都混在一起。面对这一独特的计算挑战,来自莱斯大学的图形人工智能(AI)专家Santiago Segarra和计算生物学家Todd Treangen合作,探索如何利用AI驱动的数据分析来开发新工具,以加速宏基因组研究。

这对科学家聚焦于两种使宏基因组分析特别具有挑战性的数据类型——重复和结构变异,并开发了处理这些数据类型的工具,其表现优于当前的方法。

重复是在单个生物体的基因组中以及在多个生物体群落中反复出现的相同DNA序列。

"来自多个生物体的宏基因组样本的DNA可以被表示为一个图,"电气与计算机工程助理教授Segarra说。"我们开发的其中一种工具基本上利用了这个图的结构,以确定DNA的哪些部分在微生物之间反复出现,或者在同一微生物体内反复出现。”

这种名为GraSSRep的方法结合了自我监督学习,即AI模型自行训练以区分隐藏和可用输入的机器学习过程,以及图神经网络,这是一种处理将对象及其相互关系表示为图形的系统。这篇同行评议的论文已经在第28届国际计算分子生物学研究年会RECOMB 2024上发表。该项目由Rice大学研究生和研究助理Ali Azizpour主导。Rice博士校友Advait Balaji也是该研究的作者之一。

重复很重要,因为它们在细菌对其环境变化的反应或微生物组与寄主生物的相互作用等生物过程中起着重要作用。重复可能会在抗生素抵抗方面发挥作用。通常情况下,在细菌基因组中跟踪重复的历史或动态可以揭示微生物的适应或进化策略。更重要的是,重复有时实际上可能是伪装成病毒或噬菌体的病毒。噬菌体有时用于杀灭细菌。

“这些噬菌体实际上看起来像重复,因此你可以根据基因组中包含的重复来跟踪细菌-噬菌体的动态。”计算机科学副教授Treangen说。“这可能提供了如何消除难以杀死的细菌的线索,或者更清晰地描绘这些病毒如何与细菌群落相互作用。”

先前,当使用基于图的方法进行重复检测时,研究人员使用预定义的规范来查找图数据中的内容。GraSSRep与之前的方法不同之处在于,它没有任何预定义的参数或引用信息来告诉数据如何进行处理。

"我们的方法学习如何更好地利用图的结构来检测重复,而不是依赖于初始输入," Segarra说。“在处理宏基因组样本时,你不需要知道其中的任何内容来进行分析。”

同样的情况也适用于Segarra和Treangen共同开发的另一种宏基因组分析方法——通过长读取共组装图进行无参考结构变异检测,即rhea。他们的同行评议论文将于7月12日至16日在蒙特利尔举行的国际计算生物学学会年会上发表。该论文的第一作者是Rice计算机科学博士校友Kristen Curry, 她将加入Rayan Chikhi实验室——也是该论文的合著者——位于巴黎巴斯德研究所担任博士后科学家。

虽然GraSSRep的设计目的是处理重复,但rhea则处理结构变异,这些基因组改变对于医学和分子生物学具有重要作用,因为它们在各种疾病、基因表达调节、进化动力学以及在种群和物种之间促进遗传多样性方面扮演着重要角色。

"在孤立的基因组中识别结构变异相对比较直接,但在没有明确参考基因组的宏基因组中这样做就更困难了," Treangen说。

目前,处理宏基因组数据的广泛使用的方法之一是通过宏基因组组装基因组(MAGs)。

"这些de novo或参考导向的组装工具是非常成熟的工具,包括整个操作流程,其中重复检测或结构变异的识别只是它们的一些功能之一," Segarra表示。“我们正在研究的一件事是用我们的算法替换现有的算法,看看这是否可以提高这些广泛使用的宏基因组组装工具的性能。”

Rhea不需要参考基因组或MAGs来检测结构变异,并且在两个模拟宏基因组测试中,它的表现优于依赖于这些预先指定参数的方法。

"这尤为显着,因为我们得到的数据解读比使用参考基因组时更加精细," Segarra说。“我们目前还在研究将该工具应用于真实数据集,并看看结果如何与生物过程相关,并从中得到怎样的见解。”

Treangen表示,GraSSRep和rhea的结合——在该领域的前期贡献的基础上——有潜力“揭示治理微生物进化的生命基本规律”。

这些项目是Segarra和Treangen实验室多年合作的结果。

0 收藏 分享 举报
  • «
  • »