语言模型能读取基因组吗？这个模型解码mRNA以生成更好的疫苗

科技

 0  178

积分：13

智能语言模型已经成功应用于解读基因组的编码，该技术由普林斯顿大学研究人员领导并发表在《自然机器智能》期刊上。他们使用语言模型优化了部分基因组序列，以改善医学和生物学研究，其中包括设计更有效的mRNA疫苗。

这项研究的重点是对未翻译区域进行优化，以提高蛋白质产量的效率，并改进疫苗。通过训练模型和实验验证，研究团队生成了数百个新的优化序列，这些最佳序列在蛋白质产量的整体效率方面表现出色，比多个疫苗开发的领先基准提高了33%。

该研究团队指出，即使将蛋白质产量效率提高一点，也会为新兴的治疗方法带来巨大提升。此外，mRNA疫苗有望预防许多传染性疾病和癌症。

该语言模型还展现了更深层次的可能性，它能够解码核苷酸序列并揭示基因调控的新信息。科学家们相信，基因调控是生命中最基本的功能之一，可以揭示疾病和紊乱的根源。这种语言模型为生命科学家提供了新的探索方式。

不同于驱动当今人工智能聊天机器人的大规模语言模型，该模型是在数十万个序列的基础上训练的。研究团队还培训了该模型以包含有关蛋白质产量的结构和能量相关信息。

此前的研究已经创建了用于解码各种生物序列的语言模型，但这是第一个专注于mRNA未翻译区域的语言模型。此外，在整体效率方面的提升之外，它还能够预测序列在各种相关任务中的表现。

值得注意的是，创建这一语言模型的真正挑战在于理解可用数据的完整上下文。 Wang教授表示，仅仅看一个狭窄的数据集并围绕其开发模型是不够的。她需要做一些全新的东西，因为这个模型正在处理生物学理解的前沿，她找到的数据随处可见。

因此，将这些部分组织成一个连贯和稳健的整体——一个多方面的数据集，以便训练复杂的语言模型，是一个巨大的挑战。 Wang指出，训练模型不仅仅是将所有这些序列放在一起，还要将具有迄今为止收集的标签的序列放在一起。这在生命科学家中从未有过。

0 收藏分享举报