来源:HIT专家网 作者:李崇铭
“关于人工智能的各类实施意见、行动方案、场景指引等政策文件相继问世,引导医疗机构的大模型应用向实践迈进。选对场景、落好项目、见到实效,需要多维度评估大模型应用场景,并站在用户角度持续优化应用效果。”
近日,在HIT专家网学苑主办的“2026年医院智能体应用专题培训”上,北京友谊医院医学数智创新中心办公室主任王力华介绍了北京友谊医院在选择评估大模型应用场景时的原则,并介绍了该院在大模型赋能体检报告生成、放射报告解读两个场景的最新实践体会。
医疗大模型的场景选择思路
回顾近两年“人工智能+医疗”相关政策,医疗大模型的发展已有比较清晰的方向,正迈向“规模化落地”的新阶段。《卫生健康行业人工智能应用场景参考指引》给出了84个具体场景的“实操清单”;五部门联合印发《关于促进和规范“人工智能+医疗卫生”应用发展的实施意见》,明确了发展目标和八大应用方向。
今年5月,《智能体规范应用与创新发展实施意见》则在“强化应用牵引”部分进一步提及,医疗辅助智能体可在医学影像分析、疾病诊断推理、定制化诊疗方案等场景中提升医疗服务质效和患者体验,赋能民生福祉。
在一系列政策推动下,医疗大模型实践持续增加。医院信息部门对算法、算力、医疗数据安全与合规、AI临床应用效果等方面的挑战,也有了更切实的体验。王力华主任认为,从实际应用效果来看,要让医疗大模型的产出与投入能够尽快匹配,“场景和项目的选择,比投入和努力更重要”。
她建议医院可按照以下四个维度,选择大模型的应用场景。
一是临床价值,要从真正解决临床痛点问题出发,寻找释放大模型价值的场景,而非追逐技术热点“生搬硬套”。
二是技术成熟度。人工智能技术更新发展很快,成熟的模型能力更强,应用落地的抗风险能力有保证。在模型选择方面,应重点考察模型的推理能力、事实准确性、响应速度和并发处理能力,以及在不同医疗场景中的泛化应用能力。
三是实施可行性。能够无缝嵌入现有工作流,操作简单且反馈及时,轻量化、安全可控的大模型应用,更容易获得各方面配合,更易于推广。
四是投入产出比,可从可量化效果、支持医学科研表现、推广和转化能力等方面,综合评价大模型应用的实际成效。
同时,大模型场景选择应与模型能力相契合,单一场景往往需要多种模型能力进行支撑。常见的大模型能力可分为感知类、决策类、生成类、预测类和交互类。感知能力是决策的基础,决策、生成、预测、交互能力贯穿全过程。“目前生成能力是大模型最成熟的功能之一,可优先尝试在医院报告生成等场景进行应用探索。”王力华表示。
大模型生成体检报告,赋能体检医生
在“健康中国2030”等政策驱动下,体检正从“批量筛查”走向“精细化健康管理”,传统人工模式难以支撑规模与质量并行提升。以北京友谊医院为例,体检报告工作由医生兼职完成,总检医生希望减少工作量,提高工作效率;体检者希望查看历年体检报告,并能查看指标变化趋势曲线。
“分析研发可行性,我们认为医院具备大模型应用环境,目前生成类模型能力比较成熟,且体检系统厂商愿意合作研发。同时,生成体检报告的结果由医生把关,决定是否引用,风险相对可控。”王力华介绍,研发前,医院和厂商对体检系统功能进行了整体梳理,结合大模型能力,规划了基于大模型生成体检报告、检查检验结果展示、历史结果对比解读、体检总检建议、慢病管理及个性化宣教等功能。
在界面设计方面,医学数智创新中心从临床使用和患者体验的角度,规划系统按钮、页面展示等。例如,在原有的总检页面右侧新增“AI生成”栏,尽量不改变医生操作习惯;支持一键引用AI生成的结论和建议,大幅提升工作效率;可同屏对比结论和建议、实时编辑,确保报告的准确性和个性化。
为避免通用大模型出现医学推断过度、缺乏总检边界、输出不可控等问题,医学数智创新中心构建了高质量评测数据集。数据集构建基于结构化数据,包含约10万条体检总检建议、127万条体检指标数据,涵盖150余个检查大类,根据真实患者分布,最终产出5000余个优质体检评测数据。
“使用真实世界数据集进行微调,使大模型生成内容的总体准确率由58.9%提升至89.2%,更接近医生给出的结论。”王力华介绍,团队基于通用预训练大模型,采用LoRA(低秩适配)技术进行高效微调,并通过指令微调进一步完成医疗场景对齐,提升模型在体检报告生成任务中的专业性和准确性。在8B小参数模型进行快速预实验之后,再进行32B模型的正式微调,进一步提升模型的复杂推理与生成能力。
经测试验证后,北京友谊医院智能总检系统已于2025年10月上线,在国际医疗部、干部保健体检中试用。面向体检者,该系统提供报告生成、历年体检指标智能解读、健康科普个性化智能推荐等功能,体检报告在夜间错峰生成,截至目前累计生成次数超4000次,智能总检页面访问量超1500次。
“大模型应用上线只是一个开始,后续针对问题进行迭代的次数可能会比传统的医院信息系统更多。”王力华介绍,大模型生成体检报告的应用经过了多轮迭代,总检医生提供了很多建设性的意见,最终取得了较好的效果。“接下来,我们会做更多格式质控、内涵质控方面的探索,提升它的能力和价值。”
大模型放射报告解读,患者的“健康翻译官”
另一个大模型在北京友谊医院的应用实践是放射报告解读。从应用场景分析,该功能的实现需要交互类、生成类模型能力,既要满足门诊部、放射科的需求,还要向患者“翻译”报告内容。这要求应用在技术上具备较强的生成和推理能力,且能与医院智慧服务小程序集成。
由于是面向患者的AI应用,医学数智创新中心在应用开发前曾多次内部研讨:大模型放射报告解读是否具备舆情属性?是否需要备案?是否应按照《人工智能拟人化互动服务管理暂行办法》的相关规定进行管理?
“面向患者的AI应用,方方面面都得考虑周全。”王力华介绍,放射报告解读采取全程安全控制,应用、数据、安全服务都部署在本地,算力部署在云端;AI模型采用医疗点对点专线,服务器只提供算力、不存储数据,报告信息“即用即焚”,保障医疗数据安全。
在对解读报告质量的评估中,医学数智创新中心发现,模型对同一份放射报告的解读结果,会受提示词的影响而改变表述的专业度,而且多次提问时会出现不同回答。这些差异化的表述,不会改变解读的准确性,但会影响患者理解的难易程度。
“大模型生成文本的保守性受到Temperature参数调节,数值越低,输出越接近专业、安全的表述。为平衡报告解读的严谨性和可理解性,我们最终将该参数设定为0.2,限制了报告解读的专业性边界。”王力华介绍,解读页面还用醒目的绿色字体注明“内容为智能解读,不可完全替代医生”,提示患者解读内容仅供参考,需以正式报告为准,“这是很有必要的”。
医学数智创新中心与放射科、门诊部多次沟通,测试、排查解决问题,为放射报告解读建立了完善的质控流程:影像报告文本进行一次性解读,并对结果进行自动化质控,不合格的解读会被删除并重新生成,合格的解读可由公众号端口调阅,帮助患者理解报告内容,减轻影像医师负担。
“大模型应用与传统医院信息化项目的差异主要在两部分,一是项目初期需求不完整,甚至只有一个模糊的需求点,这是因为用户对大模型能力不熟悉;二是面向患者提供服务时,需要换位思考,做出更加谨慎的评估。”王力华表示,除了明确需求、选好场景外,大模型在医院的应用还需注意:合作完成功能设计,由信息或数智部门完成系统整体设计,由临床部门提出细节优化建议;界面设计关注技术可行性、操作便捷性与用户体验,尽量不改变用户习惯;充分考虑应用时的非功能性需求,如响应时间、安全性、可扩展性等;加强对模型和算法的管理机制,确保算法效果持续可测、可控、可优化。

精彩不容错过!
【责任编辑:陈曦 版式:明超】
HIT专家网





评论前必须登录!
注册