Page 35 - 张礼立-大数据的时代特征
P. 35
Hadoop体系架构 • ZooKeeper:high performance coordination service, 高效的,可扩展的 协调系统,存储和协调关键共享状态 • Hbase, structured data storage, 是一个开 Pig Hive ChuKwa 源的,基于列存储模型的分布式数据 库, • HDFS, Hadoop distribution File system, 是一个分布式文件系统。有着高容错 MapReduce HBase ZooKeeper 性的特点,并且设计用来部署在低廉 的硬件上,适合那些有着超大数据集 的应用程序 HDFS • MapReduce, expressing data analysis programs, 是一种编程模型,用于大规 模数据集(大于1TB)的并行运算, high level data flow language for parallel computation • Pig是一个基于Hadoop的大规模数据分析平台,Pig为复杂的海量数据并行计算 提供了一个简易的操作和编程接口 • Chukwa, Data collection system, 是基于Hadoop的集群监控系统,由yahoo贡献 • Hive是基于Hadoop的一个工具,data warehouse, 提供完整的sql查询功能,可以 将sql语句转换为MapReduce任务进行运行
   30   31   32   33   34   35   36   37   38   39   40