GPT-4用于识别单细胞中的细胞类型,有时能够与专家方法匹敌甚至超越

科技
0 202

哥伦比亚大学梅尔曼公共卫生学院的研究表明,GPT-4能够准确解释对单细胞RNA测序分析至关重要的细胞类型,其结果与人工专家对基因信息进行耗时的手动标注高度一致。这一发现发表在《自然方法》杂志上。

GPT-4是一个设计用于语音理解和生成的大型语言模型。通过对多种组织和细胞类型进行评估,GPT-4已经展示出了能够产生与人工专家手动标注紧密一致的细胞类型注释,并超越了现有的自动算法。这一特性有望大大减少注释细胞类型所需的工作量和专业知识,而这个过程可能需要数月时间。此外,研究人员还开发了GPTCelltype,一款R软件包,以便利用GPT-4进行自动注释细胞类型。

该研究的作者之一、哥伦比亚梅尔曼公共卫生学院生物统计学助理教授侯文品博士表示:“对单个细胞进行细胞类型标注的过程通常耗时,需要人类专家比较不同细胞聚类中的基因。虽然已经开发了自动细胞类型注释方法,但手动解释科学数据的方法仍然被广泛使用,而且这一过程可能需要数周甚至数月的时间。我们假设GPT-4可以准确地注释细胞类型,将这一过程从手动转变为半自动甚至完全自动的程序,成本效益和无缝连接。”

研究人员评估了GPT-4在涵盖五个物种、数百种组织和细胞类型以及正常和癌症样本的十个数据集上的表现。他们使用了研究人员开发的软件工具GPTCelltype对GPT-4进行查询。为了比较,他们还评估了其他GPT版本和手动方法作为参考工具。

研究人员首先探讨了可能影响GPT-4注释准确性的各种因素。他们发现,在使用前10个不同基因时,GPT-4的表现最佳,并且在各种提示策略下表现出类似的准确性,包括基本的提示策略、包含推理步骤的思维链式提示策略和重复提示策略。在大多数研究和组织中,GPT-4与手动分析的匹配率超过75%,显示出其在生成与专家相媲美的细胞类型注释方面的能力。此外,在某些细胞类型中,GPT-4与手动注释之间的低一致性并不一定意味着GPT-4的注释是错误的。例如,在基质或结缔组织细胞的案例中,GPT-4提供了更准确的细胞类型注释。而且,GPT-4的速度也显著更快。

侯文品博士及其同事还评估了GPT-4在复杂真实数据场景中的稳健性,并发现GPT-4能够以93%的准确性区分纯和混合的细胞类型,并以99%的准确性区分已知和未知的细胞类型。他们还评估了使用先前模拟研究重现GPT-4方法的性能。在85%的情况下,GPT-4生成了相同的标记基因注释。“所有这些结果都表明了GPT-4在各种场景中的稳健性。”侯博士指出。

尽管GPT-4超越了现有的方法,但侯认为有一些需要考虑的限制,其中包括验证GPT-4的质量和可靠性的挑战,因为它对其训练过程了解甚少。

侯说:“由于我们的研究聚焦于GPT-4的标准版本,对GPT-4进行微调可能进一步改善细胞类型注释的性能。”

杜克大学医学院的季志诚是论文的合著者。

该研究得到了国家卫生研究院的支持,资助编号为U54AG075936和R35GM150887。

0 收藏 分享 举报
  • «
  • »