来源:HIT专家网 作者:龚晨 朱小兵
2023年4月,在合肥举办的2023 CHITEC上,主办方发布了“中文医学术语系统”2.0版。
何为“中文医学术语系统”?该系统的研制背景是什么,进展如何?未来应该如何落地到实际应用?近期,HIT专家网对参与“中文医学术语系统”开发与维护的主要机构之一——华中科技大学信息医学研究所的团队成员进行了专访,了解“中文医学术语系统”的研发与落地进展。
业界对统一、规范的中文医学术语的需求,由来已久。统一的医学术语,可以消除临床概念的不确定性,实现跨机构跨系统间数据的有效整合,有助于提高医疗治疗、便于不同组织协调一致地交换临床信息,在临床诊疗、医学研究、医学人工智能研发、医保支付、互联互通等多个方面,都存在切实的使用场景。
走自主设计的中文医学术语系统研发道路
华中科技大学信息医学研究所所长张晓祥介绍,早在2018年,中国卫生信息与健康医疗大数据学会卫生健康信息标准专业委员会和华中科技大学信息医学研究所,就开始联合国内多家医疗机构研发“中文医学术语系统”。历时三年,“中文医学术语系统”在2021年12月举办的首届全国医疗健康信息互联互通与智慧医院建设大会上进行了发布。
2018年,国务院办公厅《关于促进“互联网+医疗健康”发展的意见》提出:健全统一规范的全国医疗健康数据资源目录与标准体系,全面推开病案首页书写规范、疾病分类与代码、手术操作分类与代码、医学名词术语的“四统一”。2022年,《“十四五”卫生健康标准化工作规划》提出:健全卫生健康信息标准体系,完善“基础类”等6类信息标准的制定。
作为“基础的基础”,中文医学术语的标准长期存在空白。探索建设中文医学术语系统,已成为新时期卫生信息化标准化建设的重点任务之一。
2018年,中国卫生信息与健康医疗大数据学会卫生健康信息标准专业委员会和华中科技大学信息医学研究所(以下简称“项目团队”)开始探索研发“中文医学术语系统”。项目团队先后获得了国家卫生健康委统计信息中心中文医学术语标准开发前期研究、中文医学术语标准开发管理机制研究、临床医学术语标准协作开发机制研究、临床医学术语标准维护等课题的支持,充分论证了中文医学术语体系构建的技术路径、协作方法、管理模式和维护方案。
“我们充分考虑了知识产权、体系实用性、建设难度与周期等多个因素,设计了自主开发的技术路线。”张晓祥介绍。项目团队同时与一些国际医学术语标准化组织开展了交流,吸纳各种医学术语体系的优点,并将中医、生物信息等内容有机融入进来。
在确定技术路线后,项目团队确定了建设目标,包括:
第一,满足医疗信息化建设多方位的需求:从临床工作需要出发,满足电子病历、医疗管理等应用场景需求。
第二,提供系统性的中文医学术语体系框架:涵盖临床医学、药学、护理学、检查检验、生物医学等多个知识领域,建立合理的中文医学术语系统框架。
第三,采用比较先进的技术开发路径:围绕术语学理论基础和标准化方法,设计基于本体的医学术语模型,并与其他医学术语体系进行融合或映射。
最后,保障术语标准的持续发展:技术和管理并重,设计合理的组织机构设置、过程管理方案、多学科及多研究小组协同开发策略。
从平面列表到知识体系,中文医学术语模型的建立
“中文医学术语系统”是一个大规模的、面向多领域知识集成的术语体系,著录了包括症状和体征、疾病、中医证候、治疗、诊断方法、中医四诊检查对象、生理结构与功能系统、身体物质、药品、药物加工、器械、临床事件、健康管理、标本、检测指标、实验室操作、有机体、物理因素、外部物质、测量单位与限制值、文档、短语、社会背景、环节与定位、连接词、特殊概念、细胞、表型等领域的65万个医学概念和80万个术语,构建了丰富的实体语义关系,并在部分医疗机构进行了落地应用。
该体系同时与现行其他医学词表或目录进行了融合或映射,可满足病历书写、病案编目、医保付费等多场景应用需求。
华中科技大学信息医学研究所高级工程师任宇飞介绍,虽然国家卫生健康委在2019年发布的《常用临床名词》中公布了4万多个词条,涵盖常用的疾病诊断、检查检验、手术操作等名词规范。但该名词规范类似字典,只是一个平面列表,词条与词条之间缺乏内在知识逻辑体系。此外,中医药学名词、中文医学主题词表、中医病症分类与代码等也都存在一些共性问题,如:覆盖范围比较局限、更新维护不具动态化、相互间缺乏交叉映射。
对标国际,常见的医学术语标准体系包括:SNOMED CT(Systematized Nomenclature of Medicine – Clinical Terms,医学系统命名法——临床术语)、MeSH(Medical Subject Heading,医学主题词表)、UMLS(Unified Medical Language System,统一医学语言系统)、LOINC(Logical Observation Identifiers Names and Codes,观测指标标识符逻辑命名与编码系统)、ICD(International Classification of Diseases,国际疾病分类)等。
这些国际标准的特点是起步较早,已得到长足发展,并不局限于规范、词典层面,而是扩展为语义网等具有更大范围、更多层级的网络关系。这些标准不但在各自特定领域得到了深度优化,同时注重多语种扩展、多标准集成与交叉映射,逐步开发出覆盖更大范围的领域规范。
在“中文医学术语系统”的技术方案中,“术语模型”是最为基础与关键的设计。基于术语论、本体论、知识图谱技术,“中文医学术语系统”将术语模型分为三层:术语层、术语集层和知识图谱层。
1.术语层
术语层是中文医学术语模型的第一层。这一层的主要工作,首先是概念与术语的收录,其次是将各个术语区分为首选词和同义词,对应到一个概念上,并赋予统一的概念编码。
术语(Term)是特定专业领域中一般概念的词语指称,概念(Concept)是通过对特征的独特组合而形成的知识单元。一个术语只能表示一个概念,一个概念可由多个术语表示;作为该概念第一选择的术语被称为“首选词”,其他术语被称为“同义词”。
在“中文医学术语系统”中,以“心律失常”为例,这是一个概念,同时也是这个概念的“首选词”;此外,还存在心律紊乱、心律不齐等多个“同义词”。
截至目前,“中文医学术语系统”已著录65万个医学概念、80万个术语。这80万个医学术语的概念命名与映射,充分借鉴了多个权威来源的已有成果,如全国科学技术名词审定委员会审定的名词书目,国家卫生健康委、国家中医药管理局等政府主管部门审定的常用临床医学名词,以及卫生信息领域相关标准、文献等,同时也参考借鉴了Mesh、UMLS等国际标准,对相关术语进行了收录或映射。
2.术语集层
术语集层是中文医学术语模型的第二层。这一层的重点工作是“分类框架”和“层级关系”的设计。
基于《医学术语(含中医)分类框架体系》(T/CHIA 16-2020)与相关实践,项目团队将中文医学术语模型分为28个顶层分类、30个亚类,顶层分类涵盖了目前主流的、以应用目的为导向的术语类别,如:症状和体征、疾病、治疗、诊断方法、生理结构与功能系统、药品、器械、检测指标、环境与定位等。为服务中医药信息化,还涵盖了中医疾病、中医证候、中药等术语类别,
在分类框架的指引下,项目团队将收录的65万个医学概念依次归结到28个顶层分类及其亚类里,按“层级关系”形成树形结构,也即“概念树”。
以“高血压病”为例,其概念树最顶层是“疾病”,下面依次是“西医疾病”“按身体部位分类的疾病”“心血管系统疾病”“血管病症”“动脉病症”,之后即可定位到“高血压病”;在其之下,还可继续按层级定位到“良性高血压”“良性继发性高血压”“良性继发性肾血管性高血压”等更加细分的医学概念。
3.知识图谱层
知识图谱层是中文医学术语模型的第三层。这一层的重点工作是将“术语集”中的术语按照“语义类型”“语义关系”等进行标识与关联,形成“知识图谱”,用以进一步描述各医学概念之间的逻辑关系。
在“术语集层”,已经体现了最简单的一种语义关系(“是一个”);而在“知识图谱层”,项目团队结合临床医学、生物医学的实际情况,抽象出发病机理/位置、给药途径/动作、手术进路、发作性等,将语义关系进一步细化,目前已定义了60多种语义关系,多维度描述疾病的发现部位、发病机理、病理学进程、过程性质等特征,揭示疾病、症状、治疗、药品、器械等概念之间的关系,构建网状的知识图谱结构。
同样还是以“高血压”为例:“高血压”与“高血压性心力衰竭”相关,两者间的语义关系是“与……相关”;也与“有无高血压家族史”相关,两者间的语义关系是“相关发现”。由此形成的网状关系,在计算机层面表现为三元组存储结构,也即由两个概念和一个箭头(关系)组成。
“中文医学术语系统”的应用探索
“医学术语系统在临床信息系统中的应用,常以子集模式来进行。”任宇飞介绍了几种常见的应用场景。
1.电子病历结构化存储
借助“中文医学术语系统”,可以有针对性地进行临床诊断的精准化定义管理,相关词条直接来源于术语系统,并用术语编码进行定义;针对不同科室,还可以整理出常见病和重点管理诊断列表,借助“概念树”和“知识图谱”,制作结构化诊断模板。这将有助于医生下达更为细致、精准的疾病诊断。
比如,可将“心力衰竭”的诊断模板定制为“[急慢程度][病因][侧别]心力衰竭,[NYHA心功能分级]”,将“心律失常”的诊断模版定制为“[发生机制][起源部位][心律快慢][心律失常类型]”等。
2.电子病历语义质控
传统的病历质控,存在局限于格式、滞后于医疗过程等问题。基于“中文医学术语系统”及反映术语关联关系的知识图谱,能够从病历内容语义关系的一致性、合理性、规范性和充分性等方面,生成质控规则,从而实现医疗过程中病历实时语义质控。
比如,通过精确识别病历文本中的“实体关系”,可以提取并判断“疾病与症状/体征”与“药物治疗/手术治疗”之间的关系是否合理;通过精确识别“医疗事件”,可以提取并判断检查、诊断、用药、手术等诊疗活动关键节点是否规范等。
3.智能病案编码
借助“中文医学术语系统”,对医生病历书写过程进行引导,可以帮助医生将不同疾病的相应病因、部位、病理、分型等,具体对应到ICD-10相关亚目的细分诊断,从而提高病案首页诊断选择和编码的准确与精细水平。
4.用于科研的结构化病历检索
在大数据平台上检索科研病例时,比如医生想检索“胃恶性肿瘤”相关病例,传统的检索方式是匹配“胃恶性肿瘤”这五个字,但势必会遗漏大量“胃恶性肿瘤”下属的细分肿瘤病例。
借助“中文医学术语系统”的“概念树”等进行结构化病历检索,可以将科研病例“一网打尽”。
5.大规模预训练模型的知识增强
“文本分词”是自然语言处理(NLP)的重要步骤。“当前大语言模型使用的分词工具基本是基于词典的,这是一种比较经典的分词方式,但在医疗领域会遇到一些理解上的困难。”任宇飞介绍,项目团队正在医疗领域探索基于“中文医学术语系统”,对生成式AI的预训练模型进行微调,为其下游任务提供知识增强训练,从而提升模型对中文电子病历实体识别与语义特征提取能力,增强中文隐含特征表示。
任宇飞认为,为尽快推进“中文医学术语系统”的应用并产出成果,并非要重构整个信息系统体系,而是专注于具体场景、具体问题的创新,从而实现对医疗健康领域信息系统的持续改进。
中文医学术语的应用发展,需要业界协作
为了推动“中文医学术语系统”的应用和长期发展,需要搭建一个有效的协作机制。作为术语日常维护机构,华中科技大学信息医学研究所从服务管理、组织管理、术语管理、标准协调管理4个维度进行了组织设计,目前已开展如下工作。
首先,建设了中文医学术语系统网站(https://www.hustimi.com.cn/),面向机构开放中文医学术语浏览器,提供“术语集查询功能”,可筛选和查看术语概念的首选词和同义词;提供“知识图谱查询功能”,点击任意术语即可查看其关联术语和语义关系。
其次,构建了“中文医学术语系统协作开发信息平台”,基于开发平台开展任务管理、术语编著、质量控制、版本发布与ICD等其他术语集的映射等工作。
第三,发起了“卫生健康信息标准与术语联合体”,欢迎国内医疗机构和智慧医院建设公司加入,联合体将组织成员参与医学术语的协作开发,并为成员提供术语及下载、术语应用培训、工具软件等服务,坚持术语系统的协作性、专业性,为智慧医院的发展提供技术支撑。
【关于华中科技大学信息医学研究所】
华中科技大学信息医学研究所成立于2019年7月,挂靠华中科技大学附属同济医院,旨在进一步加强大学医工交叉优势学科建设,推进医疗信息领域的研究、成果转化和临床应用。
【责任编辑:陈曦】
评论前必须登录!
注册