来源:HIT专家网 作者:陆军军医大学新桥医院信息科 陈学涛
近日,由陆军军医大学新桥医院(以下简称:新桥医院)呼吸与危重症医学中心、信息科和重庆大学计算机学院联合组建的医学大模型研究团队,历经半年多协同攻关,成功研发了肺部感染专病大模型。
该模型聚焦肺部感染诊疗痛点,整合12893例高质量临床病例与434794条QA对(Question-Answer Pair,问答系统中的基础数据单元,通常由问题和对应的答案组成,用于训练或评估问答模型——编者注)的国内外权威医学指南。通过多策略微调与严谨评测,模型在肺部感染诊断准确性、治疗方案推荐合理性上展现出良好性能,并已在新桥医院成功落地。
以下为新桥医院信息科全程深度参与此次专病大模型研发的实战心得。
为何聚焦“肺部感染精准诊断”这一场景?
找准场景,是医疗大模型面临的首要问题。新桥医院选择从肺部感染精准诊断这一场景入手。
全球每年约有3亿-4亿例肺部感染疾病,死亡人数逾200万。若未及时干预,重症肺部感染死亡率可达30%~70%。同时,肺部感染病原谱复杂多样,涵盖细菌、病毒、真菌及非典型病原体等多种类型。临床表现异质性强,表现为“异病同征、同病异征”,临床诊断面临误诊率高、治疗延迟等挑战。混合感染、耐药菌感染、伴肝肾功能障碍、特殊人群(妊娠、老年等)的临床决策难度尤为突出。
如果能够依托医学大数据构建肺部感染大模型,根据具体病例生成个性化诊疗策略,将具有重要的临床参考价值。
如何让通用大模型迈向“通专结合”?
找到场景后,医院面临的第二个问题是如何让生成式大模型具备专科领域的精准推理能力。
2025年以来,DeepSeek等国产大模型逐渐成为行业智能发展新基座,医疗机构也纷纷开展DeepSeek本地化部署。从实际效果看,基座大模型在智能导诊、医院质量管理、患者教育等场景表现可圈可点,但进入专科疾病诊断这一关键环节的“凤毛麟角”。问题即在于,通用大模型在临床专科领域推理能力不足。
医疗行业需要在复杂数据处理场景中确保安全性和准确性。让通用大模型从“通用智能”迈向“通专结合”,是医疗行业的挑战,也是HIT人的职责所在。对此,新桥医院的心得有如下三点:
一是构建“临床数据+指南知识”双驱动的高质量训练数据集。
指南知识方面,主要整合全球权威医学机构发布的循证指南、专家共识及系统性科学证据,包括美国传染病学会(IDSA)、胸科学会(ATS)、欧洲呼吸学会(ERS)、中国国家卫生健康委员会(NHC)颁布的指南、共识,以及肺部感染最新医学文献,确保模型具备与医学发展前沿同步的专家级肺部感染知识体系。
临床数据集方面,收集新桥医院2020年至2025年间收治的肺部感染病例,基于国际疾病分类第十版(ICD-10)诊断编码(涵盖J09-J18肺炎、J85肺脓肿、B44曲霉病、B59肺孢子菌肺炎、A15-A16结核等),结合关键词(如“社区获得性肺炎”“肺部感染”“肺炎”“重症肺炎”)进行病例初筛,再经医学团队人工复核,最终确认纳入12893例符合标准的高质量肺部感染病例。
二是设计多种微调技术增强大模型专科能力,构建“通专协同”的医学推理体系。
在模型训练阶段,团队基于国产开源预训练模型,综合应用低秩适配(LoRA)、参数冻结(Freeze)、全量微调(Full)等多种微调策略,共训练6个候选肺部专病模型,并与DeepSeek-R1等全尺寸大模型进行效果比对。
三是建立“文本相似度+医疗关键点覆盖”的立体评测体系。
在文本相似度评测中,采用BLEU-4、ROUGE-1、ROUGE-2、ROUGE-L四项指标,比对7个模型(6个微调模型+DeepSeek-R1)预测结果与真实诊疗方案的一致性。
结果显示,全量微调策略在四项指标中均显著优于其他策略,经全量微调后模型的BLEU-4达46.31、ROUGE-1达67.78。模型在肺部感染领域整体性能远超DeepSeek-R1等通用模型(平均提升47.2%),充分验证了领域专属微调的必要性。
在更贴近临床实际的关键要点评测中,团队利用大模型从答案中提取核心医学信息(如病原体类型、用药方案、检验项目),计算Precision、Recall与F1值。结果显示,新桥医院的模型在病例测试中F1值达0.6363,在知识测试中F1值达0.6220,较DeepSeek-R1分别提升23.7%、60.9%,表明模型不仅能生成与标准答案表层重合度高的文本,更能精准覆盖关键医学知识点,满足临床决策中对准确性和完整性的核心需求。
研发专病大模型,仍面临诸多挑战
此次新桥医院信息科团队全程深度参与了专病大模型研发,包括数据收集、数据处理、模型训练、模型测试、部署上线五大环节。有经验,也有挑战。主要挑战如下:
1.如何进一步规范病历书写规则,提升真实世界数据质量,减少预处理阶段的人工校验工作量。数据预处理阶段,大量的医学指南文本依托大模型生成自动形成了434,794条QA对,如此巨大的QA对,人工校验工作量巨大。由于样本来自真实世界的临床病例,过于具体的诊疗方案给模型训练带来困难,类似“××药,××用法用量,××天”的描述应该遵循相应的医学规范,最好能给出循证证据,否则模型输出结果随机性大。
2.微调过程中如何避免大模型的“灾难性遗忘”。大模型微调时,新任务数据分布与预训练数据分布差异会导致模型过度拟合当前任务,从而遗忘原有能力。这被称为大模型的“灾难性遗忘”。模型训练阶段,选用多大的基座模型,采用何种微调方法,如何尽可能减轻灾难性遗忘,保持模型的指令遵循能力,都需要进行反复试验比较。
3.如何更好地解决通专模型的有效交互和模式匹配等问题。部署上线阶段,如何整合专病模型的深度专业知识和通用模型的综合推理能力,构建通专结合智能体,从技术上解决通专模型的有效交互,有待业界进一步探讨。
专病大模型上线,仅是医院智能化建设新开端
新桥医院高度重视人工智能技术的实际落地,已通过多轮专家论证,制定了《新桥医院人工智能与智慧医院建设三年行动计划》,从应用场景布局、技术体系构建、组织保障等维度成体系推进“AI原生医院”建设。
目前新桥医院已将肺部感染专病大模型嵌入呼吸病区医护工作站,并实现了“专病大模型+通用大模型”的协同输出模式,为临床诊疗决策提供智能参考。
专病大模型的上线,只是医院智能化建设的新开端。下一步,医院将组织医学专家和人工智能技术团队持续跟踪模型临床应用情况,建立强化学习反馈体系,不断优化模型效能。同时,新桥医院还将有序构建系列垂类模型和智能体,逐渐形成以“通用基座大模型”“专用大小模型群”和“智能体群”相协同的医院智能化发展新业态。
【作者简介】
陈学涛,现任陆军军医大学新桥医院信息科主任、高级工程师,兼任中国医院协会信息专业委员会(CHIMA)委员、重庆医院协会信息管理专委会副主任委员、重庆医学会卫生信息专委会副主任、重庆数字医学学会常委等职,从事智慧医疗研究和开发工作25年。主持省部级以上课题5项,发表各类学术论文28篇,获各类软件著作权12项。

精彩不容错过!
【责任编辑:晓青】
评论前必须登录!
注册