北京市卫生健康委启动医疗人工智能应用评测服务

11月7日，北京市卫生健康委发布《关于开展医疗领域人工智能应用评测工作的通知》，正式向各企业、研究机构提供评测服务，这标志着北京的国家人工智能应用中试基地（医疗领域）对外服务能力正持续拓展和深化。

近年来人工智能技术的飞速进步，医疗AI正在加速向辅助医生、承担部分医生技术劳动的方向发展。如何坚持科技为民、科技向善，确保医疗AI应用的规范安全有效，成为公众关注和行业关心的问题。卫生健康部门作为守护人民生命健康的政府部门，承担着保障医疗安全质量、保护公众生命健康安全的根本职责，对医生的教育、培训、考核、准入和执业履行着严格监管职责。对于辅助医生或承担部分医生技术劳动的医疗AI也应该像医生一样开展科学严谨的评测，规范其应用，从而防范医疗风险、确保技术造福于民，保障人民生命健康安全。

医疗AI的评测是一项高度专业性的工作，必须依托深厚的医学知识与临床经验开展，需要顶尖医疗专家的深度参与，需要汇聚医疗行业领域内最前沿的智慧，确保评测工作既科学严谨又切合临床实际。为此，北京市卫生健康委在国家基地建设中专门设立了医疗人工智能应用评测中心（以下称评测中心），旨在建立医疗AI评测的制度体系与规范标准，依托首都高水平医院和专家队伍、高质量医疗数据，验证医疗AI的临床辅助决策能力和效果，筑牢医疗人工智能应用安全底线，同时助力医疗人工智能产品迭代优化。

由于医疗行为关乎公众生命健康，医疗AI的评测必须坚持高标准、严要求，至少满足以下三个方面的要求：

1.评测内容的全面性

医疗人工智能应用不仅要看“准确率”这一个指标。从患者角度来说，还需要考虑到伦理和信息安全；从医生角度来说，除了准确结果，医生更关注推理过程，也就是“为什么得出这个结论”。所以医疗人工智能应用要从“安全（合规伦理）、专业（医学知识）、实用（流程适配）”等多个角度一起测。

2.评测数据的权威性

应用在真实世界，特别是临床诊疗场景下的人工智能产品，光靠掌握海量甚至全量的医学教材、文献资料等书本知识是远远不够的，这就好比一个学得再好的医学生，考试可以满分，但是不经过临床锻炼也无法成为医生一样。因此，医疗领域的人工智能应用评测要用“真案例、真标准”去测，要用临床上真实的、有明确诊疗方案的，甚至是一些罕见、疑难案例，还要参考国内外最新的诊疗指南去评测，才能区分出人工智能应用在严肃医疗场景下的真实差异。

3.评测结果的科学性

考试中如果只靠专家凭经验打分，可能会有主观偏差；只靠选择题的准确率或者得分点的计分，又会漏掉对思考过程的评价。因此，对医疗人工智能应用的评测，不能只看答案，还要对它的思考和答题过程进行评价，防止“蒙”对了结果，逻辑却错了。

针对上述这几个医疗领域人工智能应用评测的重点难点问题，北京市卫生健康委委托北京市卫生健康大数据与政策研究中心，配合医疗领域国家人工智能应用中试基地建设，联合全国重点医院与顶尖专家团队，拿出了破题方案，打造了北京医疗人工智能应用评测中心。

首先，在评测内容上，评测中心专门建了一套多维度考核标准，从百姓和医生最关心的角度出发，形成了6个核心维度（医学合规伦理、医学循证与知识、通用辅助能力、专科诊疗质控管理、诊疗流程适配性、诊疗决策准确性）的评测指标体系，包含70多项具体评测任务，全面覆盖了看“安全”，查有没有泄露隐私、有没有违背医学伦理；看“专业”，测会不会用最新的医学教材、诊疗指南；看“适用”，查是否符合医生的思考逻辑和日常工作流程；看“准确”，看AI诊断对不对，给的治疗建议合不合理。

其次，在评测数据上，评测中心联合重点医院、科研机构及权威专家团队，用临床案例、国内外权威医学教材和最新临床诊疗指南，共同构建高质量评测数据集。权威医学教材确保基础知识扎实，临床诊疗指南保证与临床实践同步，典型案例覆盖常见病、罕见病及疑难病。“考题”由国内顶级专科高年资医师全程深度参与编撰与审核而成，确保评测的科学性和权威性。

最后，在评测方法上，评测中心严格实施用户申请、系统评测、专家复核三个环节，系统根据应用类型自动匹配评测任务并生成评测报告，由临床专家进行复核。在计分方式上，除采用国际通用基础评测指标外，评测中心还创新引入了基于人工智能的评分机制，也就是用一个“裁判模型”来判卷，综合“考生”的诊疗思路、推理逻辑、答题结果进行量化打分，避免只看最终结果的片面性。比如两款人工智能应用都诊断对了，评测系统会给推理逻辑更严谨、依据更充分的那款打更高分，确保评测结果客观公正、科学可信。

《通知》中还提到，本次评测服务是医疗领域国家人工智能应用中试基地首次提供对外评测服务，主要聚焦胸外科诊疗领域开展专项评测。评测结果将根据参评单位意愿适时公布，评测表现优秀的应用将优先纳入国家人工智能应用中试基地推广渠道，向各级医疗机构重点推荐。后续，评测中心将陆续开展更多医学领域的评测服务，覆盖内科、外科、儿科等专业领域，助力医疗人工智能产业健康发展，更好地服务人民群众健康需求。

以下为《通知》全文。

北京市卫生健康委员会关于开展医疗领域人工智能应用评测工作的通知

京卫信息〔2025〕52号

各有关人工智能企业，科研院所：

北京市已启动全国首个医疗领域国家人工智能应用中试基地（以下简称国家基地）建设。为保障人工智能在医疗领域的安全、合规、高效应用，市卫生健康委委托北京市卫生健康大数据与政策研究中心，联合全国重点医院与顶尖专家团队，构建了以高质量评测数据集与智能化评测工具为核心的医疗人工智能应用评测体系，建立了医疗人工智能应用评测中心（以下简称评测中心），现正式开展评测服务。诚挚邀请各单位积极参与评测，共同构建安全可靠的医疗人工智能应用环境，推动医疗人工智能产业健康有序发展。

一、评测目的

筑牢医疗人工智能产品安全底线，验证医疗人工智能产品临床辅助决策能力，助力医疗人工智能产品迭代优化。

二、评测作用

参与评测的应用产品将获得专属评测报告，为产品优化提供精准参考。其中，评测表现优秀的产品将优先纳入国家基地应用推广渠道，向各级各类医疗机构重点推广应用。评测结果可根据企业意愿向社会公布。

三、评测范围

本次评测为国家基地首次对外提供评测服务，聚焦胸外科诊疗领域，评测对象为各类具备胸外科临床辅助决策能力的人工智能应用或模型。

四、评测方法

评测中心依据医疗人工智能应用评测体系（附件2）开展医学循证与知识、医学合规伦理、专科诊疗决策等维度的线上评测。

五、参与流程与安排

（一）信息登记：参与评测的各单位于2025年11月10日前，将《医疗模型应用信息登记表（胸外科医疗场景）》（附件1）报送至邮箱xinxichu@wjw.beijing.gov.cn，加盖公章电子版本可于11月12日前反馈。

（二）评测工作：参与评测的各单位于2025年11月10日前，提供登记表中模型或应用的访问方式（页面入口或API访问接口）和相关技术文档等材料，报送至邮箱xinxichu@wjw.beijing.gov.cn。

为保障评测工作顺利开展，请参评单位指定专人负责对接。

北京市卫生健康委员会

2025年11月7日

（联系人及联系方式：麻东彦，55532544；杜睿廷，55532294）

附件1.医疗模型应用信息登记表（胸外科诊疗场景）

附件2.医疗人工智能应用评测体系简介

此图片的alt属性为空；文件名为HIT%E4%B8%93%E5%AE%B6%E7%BD%91%E8%AE%A2%E9%98%85%E5%8F%B7.png — 关注HIT专家网微信订阅号
精彩不容错过！

【责任编辑：晓青】

北京市卫生健康委启动医疗人工智能应用评测服务

评论抢沙发

评论前必须登录！

相关推荐

最新发布

业界招聘

社区新帖

最新评论

标签云

链接表

HIT180客服

关注微信：hit180
复制微信号

回顶部

评论 抢沙发