薛万国：成功的临床数据研究项目为何这么少？| PHITA2021

来源：HIT专家网作者：龚晨根据录音整理

“自2017年成立以来，我们大数据研究中心已服务了近200个临床数据研究项目。整体来看，真正有价值而且能够成功完成的数据研究项目只是其中的少数。”

在5月15日举办的北京卫生信息技术协会2021年学术年会暨会员代表大会（PHITA2021）上，解放军总医院医学大数据研究中心原主任薛万国如是表示。

不过，这并非是给临床数据分析“泼冷水”，薛万国强调的是：作为一项多学科交叉融合的工作，临床数据分析研究自有其“客观规律”所在。认识规律、掌握规律，并在此基础上建立规范化的服务流程，提升研究服务水平，才能更好地推动临床数据研究的价值呈现与转化，为医疗科技创新提供坚实的数据支持。

对项目进行一次“数据分析”

自成立以来的4年时间里，解放军总医院医学大数据研究中心已形成了一支包括信息技术、数据分析、生物信息、生物医学工程等专业在内的复合型人才队伍，前后服务近200个临床数据研究项目。薛万国对这些项目的基本情况进行了一次数据分析。

从项目类型来看，排名前三位的分别为：专病库建设、数据提供、疾病及不良事件预测。此外也不乏因各种原因中断的项目。

从项目来源来看，来自于临床需求的自研项目最多，院内大数据课题次之。

从项目申请者来看，以临床医生为主体（59%），研究生课题也有较高占比（26%），护理、药学、医技人员占比较低。

从数据使用情况来看，在不同来源的数据中，高居榜首的是相对较为完整的住院信息；在不同类型的数据中，研究项目所使用的结构化数据居多，病历文本的数据相对较少，多模态数据有一定占比。

此外，薛万国对大数据研究中心的数据服务全过程工作量进行了经验性的量化，其中：数据分析的前置环节总占比为65%（数据提取10%、数据清洗30%、描述统计分析10%、数据预处理15%），建模分析占比20%，效果评估占比5%，模型解释占比10%。由此可见，团队大部分的时间精力都用在了前期的数据处理中。

影响数据研究项目开展的6类问题

通过这些项目的实践经历，薛万国总结出影响数据研究项目正常开展的6类常见问题。

第一类问题是研究方向不明确或价值不高。临床数据研究应以临床问题为导向，选择临床实践中的难点或存在困惑的问题，通过数据分析，发现人工不易察觉或不易掌握的规律。“然而我们在实践中发现：相当一部分项目的目的只是为了建立专病数据库，研究问题尚不明确或不具体，还有一些项目拟开展的研究价值不高。”薛万国举例说明，临床科室希望建立某个肿瘤疾病的专病库，开展这一肿瘤疾病发病年龄分布等描述性统计，但这些已是该专业尽知的规律；还有研究者希望对某慢性病合并其它病症进行判断，但业内对此也已有明确的诊断标准，因此研究本身的临床价值不高。

第二类问题是研究方案设计不合理。薛万国以“样本设计”为例进行阐述：有研究者希望开展两种免疫相关疾病之间的关联研究，并提出两个研究方案，其一是进行病例对照，也即对曾先后患两种病症的患者病例与患其中一种疾病的健康人群病例进行对照分析，该方案需获取患者的既往病史情况，但病历记录中对患者一般疾病史的记录不够全面，不能可靠地判断有两种病症的病例；其二是开展回顾性队列研究，观察一种病症患者中后期患另一疾病的病例情况，但由于医院患者人群的不稳定，难以实现持续跟踪观察。“正确的方案应是针对固定人群开展队列研究。”薛万国指出，研究方案的设计需要考虑医院病例样本的局限性；事实证明，医院的病例数据能够支持的研究还是有局限的。

第三类问题是前期研究探索的周期过长。针对临床提出的研究问题，需要进行可行性预研究，包括：数据内容是否覆盖研究需要、样本数量是否充足等。“在实践中发现，我们在一些项目的数据抽取、清洗上花费了较多时间，但由于可行性问题导致研究终止，这部分工作相当于无功而返。”薛万国介绍了两个实际案例：在某一疾病微创手术疗效研究中，需要获取患者门诊随访数据，术后一年的随访效果较好，但超过一年后来院随访人数急剧下降，导致项目受阻；在另一项术前操作对术后感染的影响研究中，通过一系列排除条件对病例进行筛选后发现，符合条件的正样本数量过少，导致研究无法正常开展。

第四类问题是数据偏倚的误导。由于样本自身分布的偏倚，导致数据分析的结论出现偏差，这是难以避免且必须重视的问题。以“某一疾病发病与出生月份相关性研究”为例，通过数据分析，发现在第四季度出生的患者居多。薛万国表示，如果未能及时意识到数据偏倚问题，并引入普通人群的出生月份分布情况进行对照，就很容易被数据误导，从而得到错误的研究结论。

第五类问题是数据处理工具的适用性。数据处理是人工与自动化工具相结合的过程，临床数据分析需要使用的数据处理工具包括：数据筛选、结构化特征提取、数据转换、缺失值插补等，而且要求具有较高的灵活性和场景适用性。薛万国认为，现有工具的适用性不足。以结构化特征提取为例，部分结构化特征需要根据研究问题以“量体裁衣”方式提取，但由于临床数据分析的样本数量多在千例，甚至数百例，而基于机器学习的结构化方法需要大量标注，“这种工作量往往是得不偿失的”。

第六类问题是数据选择不当与数据处理的弯路。医疗数据在不同业务环节采集中存在一定重叠，比如临床诊断同时存在于病案首页、病历记录等处，用药信息同时存在于医嘱、收费项目等处。数据来源的不恰当选择，将导致数据处理工作的事倍功半；而合适的数据来源选择，比如用药品代码代替药品名称等，则可大大减少数据处理工作量。“这要求数据处理人员对医疗业务流程、数据流程、医疗数据有深入了解，能够掌握不同环节的数据特点、数据质量以及适用范围。”

认识研究规律，提升服务水平

“我们需要在认识临床数据研究规律的前提下，不断提高研究服务水平。”针对上述问题，薛万国分享了他对于临床数据研究的四点认识：

首先，临床数据的分析利用存在较多困难和局限，在现阶段，有价值且能成功完成的项目案例是少数；

第二，临床数据服务需要临床研究设计专家参与其中，大数据中心不能“被动”提供服务；

第三，开展临床数据服务需要熟悉数据产生源头与产生过程，如果将数据分析与信息化环境割裂开来，将存在很大弊端；

第四，数据处理分析工具的发展还不成熟，既有的大数据平台“承诺”太多，但离实际需求还有显著差距。

基于上述认识，薛万国给出了提升临床数据研究服务水平的相应对策：

1.建立规范化的数据服务流程。通过规范流程，对数据服务进行有效管理，确保项目的研究价值、分析质量、服务效率、数据安全等，“这是数据服务的软实力所在”，特别要注重审核论证、方案把关、报告审核等环节的流程规范。

2.加强研究项目的前期审核工作。薛万国建议，在团队中配置流行病学专业人员，从研究方案设计合理性方面对研究项目进行把关与指导；数据服务工程师要与临床研究人员进行充分沟通与讨论，掌握研究问题背景、研究思路，把握研究项目的临床价值；对研究生课题要求导师参加讨论，以减少低水平的研究。

3.加强研究阶段的过程把关。包括：对数据源把关，讨论审查数据的业务来源是否合理；对数据抽取条件把关，保证病例样本无遗漏、无差错；对数据处理分析过程把关，保证数据处理无差错、模型选择合理；对研究结果把关，保证结果可靠、研究报告规范。

4.借助适宜工具降低工作量。面向临床人员，提供足够灵活自由的数据检索工具，可对结构化、非结构化数据进行灵活的组合检索，便于临床人员自由筛选观察病例样本；帮助其具备对典型临床事件的识别能力；便于对病例样本进行描述性统计，以掌握样本情况。面向技术人员，提供针对场景的数据处理工具，包括：针对研究问题的数据结构化工具，数据处理过程的导入、转换、统计、导出等工具。

【责任编辑：陈曦】

薛万国：成功的临床数据研究项目为何这么少？| PHITA2021

评论抢沙发

评论前必须登录！

相关推荐

最新发布

业界招聘

社区新帖

最新评论

标签云

链接表

HIT180客服

关注微信：hit180
复制微信号

回顶部

评论 抢沙发