来源:HIT专家网 作者:龚晨 整理
“大模型可以替代病案编码员吗?”经过一段时间基于大模型进行病案智能编码的实践经验,广州医科大学附属第二医院(以下简称广医二院)运营办公室主任陆慧菁对这个问题给出了否定答案。
身为医院运营办主任,陆慧菁的工作职责之一是制定全院年度目标,公立医院绩效监测与医保支付改革这两项任务是重中之重。“既要绩效监测成绩好,又要医保有结余,在没有大量投入的背景下,如何才能更好地完成这些任务?”陆慧菁认为,绩效考核与医保支付都有一个关键环节,就是病案首页与CMI值(Case Mix Index,病例组合指数)。面对大模型浪潮,陆慧菁选择从病案数据矫正与CMI优化切入,寻找大模型的应用场景。
结合大模型与传统模型,聚焦两类应用场景
“我从信息科转岗至运营办,至今已满四年。转岗后,我对大模型等新技术的跟进肯定没有之前深入,但我可以从更贴近运营业务目标的视角,推动技术落地。”陆慧菁认为,大模型与传统模型并非替代关系,两者各有所长:
大模型的核心突破在于规模效应和通用性,在复杂任务领域的表现接近人类,适用于临床诊疗支持、病案首页质控与DRG/DIP分组、患者服务与智能问答、科研与文献挖掘等医疗场景;其挑战是计算成本高、推理延迟大、存在幻觉风险。
传统模型则胜在可解释性强、资源消耗低,适合结构化数据和小规模场景,如医疗质量监控、医院运营管理、医保监控、影像辅助诊断等;其挑战是对复杂模式的捕捉能力有限,依赖人工干预。
“未来的发展趋势应是两者结合,如将大模型蒸馏为轻量级模型,或传统模型调用大模型API。”有着20多年医院信息科从业经历的陆慧菁,很快就捕捉到了两个适用于大模型与传统模型混合架构的典型场景。
其一是病案数据的全流程质控。在这个场景中,大模型负责解析病程记录文本,提取诊断/手术关键词,并结合医疗知识图谱,校验诊断间的逻辑冲突;传统模型,如XGBoost可校验诊断与检验结果的逻辑一致性,规则引擎的作用是强制校验医保合规字段,如年龄与疾病关联性等。
其二是CMI值的动态优化。在这个场景中,大模型可进行政策与知识解析,实现与医保、绩效监测规则的动态适配;传统模型则能基于历史数据训练,实现CMI分值趋势预测、识别科室CMI偏离同级别医院均值的病例、防止过度编码等功能。
“总结一下,大模型主攻非结构化数据解析和复杂决策辅助,传统模型则专注结构化数据预测和资源优化。”陆慧菁说。
基于上述思路,广医二院希望建设一个AI智能编码平台,在病历内涵质控方面更进一步。整体设计思路是:在工作流层,将编码工作拆解为标准化步骤链,如诊断提取、主次判定、并发症关联、编码映射等;在推理引擎层,通过本地部署开源大模型,基于步骤上下文逐步推理,动态查询知识库辅助推理;在应用层,结合具体业务(如DRG、DIP、编码质控),具体分析问题。
AI智能编码平台的落地进阶之路
“理想很美好,实际落地问题重重。”陆慧菁说,广医二院的AI智能编码平台建设,经历了三个阶段。
第一个阶段是“直接使用大模型”。医院尝试将整本病历直接输入大模型,要求生成ICD-10国临版诊断编码,结果不可用。主要问题包括:编码不完整,常遗漏重要诊断;大模型生成的编码不符合ICD-10编码规则,或者根本不存在于国临版编码字典内。
陆慧菁认为,这是由于大模型缺乏精准遵循复杂医学编码规则、确保完整性与字典一致性的专业能力。因此,“目前无法替代专业编码工具或人员完成任务”。
第二个阶段是“微调大模型”。医院针对ICD-10国临版编码任务构建专用数据集,对大模型进行预训练和指令微调。此阶段,大模型生成的诊断编码质量有所提升,但依然存在大量错误,基本不可用,包括:关键诊断编码遗漏、生成非国临版字典内的编码(也即幻觉)、组合编码错误,以及对病历复杂细节理解偏差导致的规则应用错误等。
“经过多轮测试,我们得出结论,对大模型进行微调无法达到预期。就算能暂时达到效果,训练成本也过高。”陆慧菁说。
第三个阶段是“大模型+知识库”并驾齐驱,实现静态知识与动态能力的解耦与协同。医院基于ICD-10/ICD-CM3国临版全量编码知识,进行范式转换,将静态编码规则与字典知识外置于独立、可灵活更新的知识库中;通过向量化语义检索技术,使得大模型能根据病历上下文动态查询并引用相关知识片段,在推理中理解复杂病历语义、识别关键诊断实体及其关系,并基于检索到的权威指南,进行精准的编码组合。
进入“大模型+知识库”的协同阶段,仍需攻克不少实操难题。陆慧菁介绍了测试过程中的一个典型案例:在一份患者主诉及所有影像学资料均指向左小脑病灶、且病历未提及肺部相关炎症或检查结果的病案中,大模型给出“左肺恶性肿瘤”的疾病编码,出现严重幻觉。经排查,这是知识库检索污染(检索系统仅以字面“左”字做浅层匹配,错误命中大量“左肺”相关条目)、模型过度发散推理导致的。
如何解决这个问题?广医二院从三方面入手:首先是升级知识检索,采用“关键词召回+向量相似度排序”等方案;其次是提示词优化,将提示词从“请推理该患者的疾病”升级为“仅当满足以下条件时输出疾病编码:一、病历明确提及诊断结论。二、检查结果支持且符合临床路径”;第三是对模型参数进行医学化调优,以降低随机发散性,聚焦高概率。
“完成这些优化后,工作还未结束。我们与病案科深度合作,找到了更多测试病例进行验证。”陆慧菁说,这就像数学的解题验证:老师讲透一道例题,学生看似掌握了公式,但若换一道同原理的变式题仍会出错,就说明对核心逻辑的理解还不够扎实。模型验证也是如此,只有通过更多样化、更复杂的病例测试,才能暴露潜在漏洞,真正夯实其临床应用的可靠性。
在CMI值的动态优化方面,AI智能编码平台也已展现重要价值。比如,疑似缺失CC(合并症)或MCC(主要合并症)诊断,导致DRG权重丢失的病历,如何处理?如何避免这部分的CMI分值损失?
AI智能编码平台可抓取编码员编写的诊断,并提供“智能入组”功能,点击“查看分析”后,能看到两者入组结果的对比,并支持根据智能编码补齐诊断信息。据介绍,广医二院测试了2024年10月共计8700多份病历,AI智能编码平台抓取了编码可能存在问题的病历700多份。“我们对这700多份病历逐一人工复核,平台的命中率从一开始的60%,到现在接近75%,对CMI值的优化起到了很大的作用。”
对大模型价值的再思考
从广医二院的上述实践来看,大模型可以实现全病历的瞬时深度阅读,解决因编码员人力短缺导致的病历积压问题。但,“人力真的减少了吗?大模型可以替代编码员吗?”陆慧菁认为上述两个问题的答案都是否定的,原因之一是模型给出的结果并非完全可靠,二是伦理问题无法回避:如果出错,由谁来承担责任?“在当前阶段,我们更多将其用于病案编码后的二次筛查,先由模型定位疑似错漏,再由编码员针对性复核确认。”
从医院运营管理的角度来看,AI智能编码平台的重要价值在于,模型通过深度理解医学术语上下文关联,智能捕捉隐含诊断线索,一方面杜绝漏诊,另一方面可大幅降低DRG入组错误导致的权重损失,使得CMI值系统性提升,从而强化医院的绩效考核竞争力。
在此基础上继续延展,陆慧菁认为,基于对临床诊疗逻辑内在规则的学习,模型能主动发现诊断间的矛盾点(如“顺产”与“剖宫产手术”并存),拦截不合理的编码组合,填补人工抽检盲区。“这种智能编码,适用病案、质控、医生、医保等多个场景。但我们还没有放在医生端使用,主要是受制于算力。”
谈及未来发展,陆慧菁认为以下问题值得关注:
一是算力平台架构问题。当前AI应用服务商都会对医院提出算力要求,如果医院没有统一规划,后续的算力管理将变得混乱。广医二院正在规划建设算力管理平台,将单个应用的算力独占转为资源的全院共享。
二是标准体系与数据质量。原始数据质量非常重要,标准化必须先行。“数据质量的治理,应是边标准化边使用,使用后再标准化,实现数据质量螺旋式上升。”
三是安全体系建设。“即便大模型采用本地化部署方式,稍不注意,依然有数据泄露的风险。这点需要特别注意。”

精彩不容错过!
【责任编辑:陈曦 版式:明超】
评论前必须登录!
注册