【HIT专家网微讨论】朱琴的困扰：数据挖掘算法大平表何如设计？-HIT专家网

来源：HIT专家网KOL微信群整理：HIT专家网实习记者张云芳

编者按：数据挖掘、数据分析相关方面的问题一直是一个热门话题，1月8日中午，在HIT专家网的微信群里，HIT专家网总编辑朱小兵转发了飞利浦中国研究院朱琴提出的一个问题：我该如何设计数据挖掘算法这个大平表？群里顿时热闹起来，专家们就此发表了自己的观点、看法。HIT专家网将本次讨论整理如下。

朱小兵 13:03

万能的群，请教一个技术问题。假设我有一个数据仓库，我想做频繁模式分析——分类和聚类分析，那么对于算法本身来说最好是一张大平表。假设大平表是按照一个病人一条记录来算，会丢失一些数据关联信息，而以后需要应用到这些关联信息的数据挖掘就可能会出现问题。现在的问题是：我该如何设计数据挖掘算法的这个大平表？@朱琴的问题来了。

Trinity 13:30

这是为医生做的科研统计分析，也是我们梦寐以求的真正的临床数据应用。

刘立宇philip 13:53

@朱小兵　数据存储的逻辑模型和分析用的数据模型要分离。根据数据分析的特性来建立数据分析层的数据模型。有些分析适合NoSql，列存储，有些适合关系型。最重要的是设计好中立的数据源（数据存储）的数据模型（其实想通了也不难）。

信笔 13:54

一张大平表只能满足部分数据分析的需求，其他数据无法放到这个表里。因此，这个表可以满足部分主要分析，其他分析还得用其他表做关联分析。

朱琴 13:56

@信笔是的，最后觉得也是您这种方案比较靠谱，所以接下来要做的是分析哪些数据是绝大多数数据分析需要的，剩下的放其他表，按需关联。

信笔 14:00

@朱琴需要结合可能，例如手术信息是需要的，但手术信息只能另列一个表来存储和使用。

黄新霆 13:56

为什么一定要用关系数据库，用XML不能吗？

唐 14:00

一张大平表满足部分调用频率较高的数据分析需求，扩展数据可以考虑 @黄新霆提出的源生态数据即XML。

刘立宇philip 14:04

我们有专门类似问题的团队，而且已经应用。其实真正的CDR是一定要解决这些问题的。

前一阵子赵老师也发过国外的ppt，观点一致。只是人家认为那是未来的挑战，很幸运我们稍微提前了一点。

通过对医生术前术后诊断信息的分析综合评估医生的诊疗能力,并给医生提供了一个诊疗过程总结分析的服务系统,能够帮助医生更好的提高自己的诊疗水平,弥补医学知识上的缺陷,医生的诊疗能力是评价一个医生工作能力的最重要的方面,所以评估一个医生诊断结果的正确性是至关重要的一环。基于健康服务系统中的出院带药处方做了关联挖掘,通过对关联规则算法的分析,采用一种基于布尔矩阵运算的频繁项集挖掘算法。该算法只需扫描一次数据库,具有简单快速,节省内存的优点,通过对出院带药的挖掘分析,寻找出出院带药处方中常用的药物联合匹配,基于这些结果可以作为对医生开药的匹配推荐。——-其实完全可以用矩阵来解决。

朱小兵 14:10

谢谢刘立宇总阐释北大医信CDR理念。

CHIMA_HIT 14:18

目前数据挖掘最好的工具依然是矩阵运算，通过对关联规则算法的分析,采用一种基于布尔矩阵运算的频繁项集挖掘算法。该算法只需扫描一次数据库,具有简单快速,节省内存的优点,通过对出院带药的挖掘分析,寻找出出院带药处方中常用的药物联合匹配,基于这些结果可以作为对医生开药的匹配推荐。

CHIMA_HIT 14:30

为了识别脑区之间的连接，马库斯说，“我们在受试者休息时获取的扫描图中，观察脑中的自发活动在不同区域之间有何关联。”比如，如果区域A和区域B自发地以每秒18个周期的频率产生脑波，“这就说明它们处于同一网络中。”马库斯说。“我们将利用整个大脑中的这些关联数据创建一个表现出脑中的每一个点如何与其他每一个点关联的矩阵。

CHIMA_HIT 14:52

海量数据非常危险。只要玩大数据的人会发现到处都是假规律。拿一个小数据，比如五千个样本做一个非常简单的线性回归的时候发现有三个变量线性显著。但是没做任何变化，把这个变量复制倍，显著的比例可能五个了，到33万的时候可能所有变量之间的关系都显著了。问题是统计上都显著了，但所有这些结果都是错的。当数据运算量大到大约33万到70万之间时，我们会发现一个非常重要的哲学问题。这个哲学问题是什么呢？——万物都是有联系的。

从矩阵角度讲，这个矩阵是奇异的，根本无解。

CHIMA_HIT 14:52

大数据，不玩矩阵，基本属于骗子。

MATLAB是美国MathWorks公司出品的商业数学软件，用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境，主要包括MATLAB和Simulink两大部分。处理海量大数据的无人机的最强工具，操控最强的工具：MATLAB，这个工具诞生于美国的大学，问了同专业的国内名牌大学的学生，还不会用、根本不学。

东华陈绍海 14:56

@DR.1 读研究生的时候用。

严静东 14:57

电子科大的计算机专业，大三有学这门课。

CHIMA_HIT 14:55

MATLAB的基本数据单位是矩阵，它的指令表达式与数学、工程中常用的形式十分相似，故用MATLAB来解算问题要比用C，FORTRAN等语言完成相同的事情简捷得多，并且MATLAB也吸收了像Maple等软件的优点，使MATLAB成为一个强大的数学软件。在新的版本中也加入了对C，FORTRAN，C++，JAVA的支持。这个工具的最小二乘法是大数据的利器！无人机面对的就是大数据。

CHIMA_HIT 15:07

NEC 宣称其大数据技术可提升 Hadoop 处理速度十倍。把过去利用 MapReduce 分布式计算时数据改由内存处理，提升反复计算的效率。并使用新的 MPI（Message Passing Interface）分布式算法，提高原本矩阵算法组合多个 MapReduce 时服务器之间的通信效率。

朱雯 15:07

提升十倍，有点夸张。

CHIMA_HIT 15:08

超标量矢量计算在内存进行处理。

黄新霆 15:11

人家SAP把数据全放内存，不知道提高多少倍。

朱雯 15:10

spark也是在内存处理的？

hadoop应该主要是分布式吧……这个应该和spark比比.不过十倍也挺夸张的。

黄新霆 15:12

以前内存按G，现在内存按T，什么时候内存按PB算？

叶伟_HOSmart 15:20

内存中算，当然比反复读磁盘、内存计算、（分布）写磁盘快。但hadoop的创新是：用低成本、可靠性低的硬件，达成高效、可靠运算。

万里鹏 15:28

内存计算和大数据计算是解决不同问题的技术，不能直接对比的。

韩雄 15:29

@黄新霆 HANA。

CHIMA_HIT 15:30

终结于矩阵运算。

黄新霆 15:35

@韩雄是的。

【HIT专家网微讨论】朱琴的困扰：数据挖掘算法大平表何如设计？

评论 2

评论前必须登录！

相关推荐

最新发布

业界招聘

社区新帖

最新评论

标签云

链接表

HIT180客服

关注微信：hit180
复制微信号

回顶部