数学家利用人工智能识别新兴的COVID-19变种

科技
0 183

研究人员在曼彻斯特大学和牛津大学开发了一种人工智能框架,可以识别和跟踪新的令人关注的COVID-19变异,并且未来可能帮助处理其他感染问题。

该框架结合了降维技术和一种名为CLASSIX的新的可解释聚类算法,由曼彻斯特大学的数学家开发。这使得可以从大量数据中快速识别可能在未来引起风险的病毒基因组群。

这项研究发表在《美国国家科学院院刊》上,能够支持传统的病毒演化跟踪方法,如系统发生分析,目前这些方法需要大量手工整理。

曼彻斯特大学的研究员Roberto Cahuantzi表示:“自COVID-19出现以来,我们已经看到多波新变种,具有更高的传播能力,逃避免疫反应,并且导致疾病严重程度增加。

研究人员正在加强努力,以在它们出现的最早阶段确定这些令人担忧的新变种,例如阿尔法、德尔塔和奥密克戎。如果我们能找到一种快速有效的方法,它将使我们能够更主动地应对,如定制疫苗开发,甚至可能使我们在这些变种变得确立之前消除它们。”

像许多其他RNA病毒一样,COVID-19具有很高的突变率和短的代际间隔,意味着它的进化非常迅速。这意味着需要相当大的努力来识别未来可能成为问题的新菌株。

目前,在GISAID数据库(全球流感数据共享倡议)上有近1600万个序列,提供流感病毒的基因组数据访问。

目前使用极大量的计算机和人力时间来对所有COVID-19基因组的演化和历史进行映射。

所描述的方法可以自动化这样的任务。研究人员在标准现代笔记本电脑上处理了570万个高覆盖序列,仅用了一到两天的时间;这对于现有方法来说是不可能的,它由于资源需求的减少,使得更多的研究人员能够识别令人关注的病原体菌株。

曼彻斯特大学数学科学教授Thomas House表示:“在大流行期间产生的空前数量的遗传数据要求我们改进分析这些数据的方法。数据继续快速增长,但如果没有显示出整理这些数据的好处,存在将被删除或清除的风险。

我们知道人类专家的时间是有限的,所以我们的方法不应该完全取代人类的工作,而是与人类一起工作,以使工作能够更快完成,并且释放我们的专家来进行其他重要的发展。”

所提出的方法通过将COVID-19病毒的基因序列分解成较小的“单词”(称为3-mers)并将其表示为数字来计数,然后使用机器学习技术根据它们的单词模式将相似的序列分组在一起。

曼彻斯特大学应用数学教授Stefan Güttel表示:“我们开发的聚类算法CLASSIX比传统方法要求的计算量小得多,并且完全可解释,这意味着它提供了计算的簇的文本和视觉解释。”

Roberto Cahuantzi补充说:“我们的分析作为一个概念验证,展示了机器学习方法作为早期发现新变种的警报工具的潜在用途,而无需依赖生成系统发生树。

虽然系统发生学仍然是了解病毒祖先的‘黄金标准’,但这些机器学习方法可以容纳的序列数量比当前的系统发生学方法高出几个数量级,并且计算成本低。”

0 收藏 分享 举报
  • «
  • »