Page 11 - 宋俊典-数据治理及服务——基于大数据的应用创新
P. 11
一、概述 ——技术体系 数据收集:分布式爬取,分布式高速高可靠性数据采集, 目标: 高速全网数据映像技术 • 数据采集软件,能够实现每秒百 获取 数据整合:高速数据解析、转换、复杂变换与装载 万次的精准数据收集 • 高速全网数据映像软件,变化数 数据质量:数据清洗技术,质量评估模型 据的秒级响应 隐私保护:个人隐私强保护技术 目标: • 领域优化的大数据管理系统,支 数据存储:分布式文件系统(DFS)、可变存储结构、 能效优化的存储、计算融入存储系统技术 持分布式存储 数据管理与处理:分布式数据管理技术、支持 • 离线云低延迟备仹软件 管理 Transaction的非关系型数据库技术、内存计算技术 • 双活数据实时复制软件 • 隐私保护和泄露检测工具 关键技术 共享移动:大数据备份技术,大数据复制技术 • 大数据可视化软件 • 内存数据库 数据展现:大数据可视化 计算架构:分布式操作系统和资源调度、系统协同计算、 新型处理器辅助大数据计算、消息中间件 数据挖掘:社会网络挖掘、异常事件挖掘、突发事件挖 目标: • 基于Hadoop、 MapReduce、 掘,用户行为挖掘,特定对象分析等、情感语义分析等 分析 Storm等技术的分布式分析平台, 数据融合:异质多元数据关联,基于对象的数据联接技 支持100PB数据离线分析 术,相似性联接技术 • 大数据智能引擎、挖掘算法库 数据建模:BI、价格销量模型,兴趣模型,路径分析, 网络行为模型 11
   6   7   8   9   10   11   12   13   14   15   16