专病库的基因检测数据录入工作量太大，怎么办？| HIT培训问答

来源：HIT专家网整理：霍廷澜、陈曦

【编者按】
加强系统性学习，培养新时代医院CIO。由HIT专家网主办的医院信息中心主任能力培训班正在如火如荼地进行。每单元课后均设置答疑环节，学员们踊跃提问，具有代表性；教员们耐心作答，充满启发性。通过教学互动，实现教学相长。
现将部分精彩问答整理为“HIT培训问答”系列，以飨读者。更完整的教学答疑视频可关注HIT专家网微信视频号。

问题24：专病库的基因检测数据录入工作量太大，怎么办？

学员、湖州市中心医院信息数据中心副主任杨涛：我们在尝试建设专病库，院内数据已经抓得很细，颗粒度很高，但碰到一个问题：很多标本都送到外面去做基因检测，不同检测公司送回的报告格式不统一，临床医生要付出较大的工作量去做数据信息的录入工作。而且现在基因测序做得都比较细，数据也都很重要。我觉得这已经成为我们专病库不能很好做下去的一个原因。请问吕老师，有没有什么好办法解决呢？

吕旭东老师：我们2020年与北京一所肿瘤医院以及一家肿瘤基因测序公司合作建立了一个实验室，刚好有些经验可以分享一下：

在基因测序领域，医院自己开展NGS（基因组二代测序）已经成为一种趋势，许多医院都在计划建设自己的分子实验室。在基因测序的数据集成和整合问题上，我们一方面要做的是尽量保证所做研究是需求导向的。因为每个肿瘤研究所需基因方面的变量是有限的，有了需求后，我们自然可以向测序公司拿到需要集成的数据或者报告，测序公司提供的一般是PDF报告。根据需求导向，知道需要哪些变量，再用手工或者自然语言处理的方法去填写，多半情况下这种方式还是可行的，工作量不太大。

另一方面，如果是技术导向，在建设数据库时就要求把基因变量全部弄齐，这种情况没有第三方测序公司的紧密配合是很难做到的。因为原始数据一般是测序的那种TCGA下机数据文件，要经过很多处理，要分析出它的变异，再根据变异分析出它的一些组学特征，这种特征变量是很多的。我们最近和测序公司也试图定义一个泛肿瘤的基因测序数据的信息模型标准。但这个信息模型的变量太多了，如果没有测序公司的全面支持、所有数据的开放，基本上不可行。

我认为，比较合理的办法就是坚持“需求导向”。不仅是在基因报告这一个领域，专病库的建设很多都是需求导向的。比如，对于一般的病历，如果我们在研究问题之前在专病数据库中直接结构化，把所有的实体、关系提取出来，但真正到用数据的时候，可能发现提取的还是不够。所以最好是结合研究的具体问题再通过技术手段去进行处理。专病库并不是一个最终结果，而是为临床专科提供了一份能收集到的所有专科相关的数据，并且尽可能地完成技术层面能做的工作，比如字典、术语的标准化，过滤明显不合逻辑的数据等，以及保留原始数据，不丢失信息。当真正有研究问题产生时，我们再进行二次或三次提取，这样做比较符合目前的实际情况。

信息部门和临床部门要达成共识：期望不要太高，不要以为信息科一下子能把所有数据都提取好了，临床上手就能出论文。信息部门只做基础的数据整理工作，具体怎么去应用，还需要许多额外工作。总的来说就是要坚持“问题导向”，哪个专科愿意做研究了，有了需求之后，我们再去帮忙设计。

（上述内容来源于第一期培训班第10单元“医学信息学基础”课程答疑环节，HIT专家网整理，未经发言者本人审核确认）

了解培训班更多招生详情，请阅读“招生简章”

报名咨询：010-82373062/18811543423 孙婧

报名期限：长期有效

此图片的alt属性为空；文件名为HIT%E4%B8%93%E5%AE%B6%E7%BD%91%E8%AE%A2%E9%98%85%E5%8F%B7.png — 关注HIT专家网微信订阅号
精彩不容错过！

此图片的alt属性为空；文件名为9fd96946f80198b.png — 寻求“商务合作”请扫码填写需求
我们将尽快与您联系！

【责任编辑：晓青】

专病库的基因检测数据录入工作量太大，怎么办？| HIT培训问答

评论抢沙发

评论前必须登录！

相关推荐

最新发布

业界招聘

社区新帖

最新评论

标签云

链接表

HIT180客服

关注微信：hit180
复制微信号

回顶部

评论 抢沙发