人工智能的进步尽管令人振奋,但人类监督仍然至关重要

科技
0 136

研究表明,目前的大型语言模型(LLMs)在医学编码方面表现不佳,强调了在考虑临床实施之前需要对这些技术进行细化和验证的必要性。研究人员从Mount Sinai Health System的12个月常规护理中提取了超过27,000个唯一的诊断和操作代码,并使用OpenAI、Google和Meta等模型输出最精确的医学代码。结果显示,所有研究的大型语言模型都显示出有限的准确性,在重建原始医学代码方面表现不佳。尽管GPT-4表现最佳,但仍然存在着无法接受的错误数量。研究人员认为,尽管人工智能具有巨大潜力,但必须谨慎对待并不断发展,以确保其在医疗保健领域的可靠性和有效性。同时,研究团队计划开发定制的LLM工具,以改善医疗保健运营的质量和效率。

研究标题为“生成式大型语言模型是糟糕的医学编码器:医学代码查询的基准分析”。研究得到了AGA Research Foundation的2023 AGA-Amgen Fellowship to-Faculty Transition Award AGA2023-32-06和NIH UL1TR004419奖项的支持。

研究人员强调,该研究是在没有使用任何受保护的健康信息(PHI)的情况下进行的。

0 收藏 分享 举报
  • «
  • »