万本电子书0元读

万本电子书0元读

顶部广告

大数据系统构建:可扩展实时数据系统构建原理与最佳实践电子书 租阅

售       价:¥

纸质售价:¥54.50购买纸书

212人正在读 | 0人评论 6.2

作       者:(美)南森·马茨(NathanMarz),(美)詹姆斯·沃伦(JamesWarren)

出  版  社:机械工业出版社

出版时间:2016-12-01

字       数:16.9万

所属分类: 科技 > 计算机/网络 > 计算机理论与教程

温馨提示:此类商品不支持退换货,不支持下载打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
本书将教你充分利用集群硬件优势的架构,以及专门设计用来捕获和分析网络规模数据的新工具,来创建这些系统。其中描述了一个可扩展的、易于理解大数据系统的方法,可以由小团队构建并运行;并利用一个实际示例,基于大数据系统的理论在实践中实现它们来指导读者。本书共18章。第1章介绍了数据系统的原理,并对Lambda架构进行了概述;第2章到第9章集中阐述了Lambda架构的批处理层;第10章和第11章讲述服务层的内容;第12章到17章讲述速度层的内容;第18章再次巩固Lambda架构的相关知识,并进行查漏补缺。 本书将教你充分利用集群硬件优势的架构,以及专门设计用来捕获和分析网络规模数据的新工具,来创建这些系统。其中描述了一个可扩展的、易于理解大数据系统的方法,可以由小团队构建并运行;并利用一个实际示例,基于大数据系统的理论在实践中实现它们来指导读者。本书共18章。第1章介绍了数据系统的原理,并对Lambda架构行了概述;第2章到第9章集中阐述了Lambda架构的批处理层;第10章和第11章讲述服务层的内容;第12章到17章讲述速度层的内容;第18章再次巩固Lambda架构的相关知识,并行查漏补缺。
目录展开

译者序

前言

关于本书

致谢

第1章 大数据的新范式

1.1 本书是如何组织的

1.2 扩展传统数据库

1.3 NoSQL不是万能的

1.4 基本原理

1.5 大数据系统应有的属性

1.6 全增量架构的问题

1.7 Lambda架构

1.8 技术上的最新趋势

1.9 示例应用:SuperWebAnalytics.com

1.10 总结

第一部分 批处理层

第2章 大数据的数据模型

2.1 数据的属性

2.2 基于事实的数据表示模型

2.3 图模式

2.4 SuperWebAnalytics.com的完整数据模型

2.5 总结

第3章 大数据的数据模型:示例

3.1 为什么使用序列化框架

3.2 Apache Thrift

3.3 序列化框架的局限性

3.4 总结

第4章 批处理层的数据存储

4.1 主数据集的存储需求

4.2 为批处理层选择存储方案

4.3 分布式文件系统是如何工作的

4.4 使用分布式文件系统存储主数据集

4.5 垂直分区

4.6 分布式文件系统的底层性质

4.7 在分布式文件系统上存储SuperWebAnalytics.com的主数据集

4.8 总结

第5章 批处理层的数据存储:示例

5.1 使用HDFS

5.2 使用Pail在批处理层存储数据

5.3 存储SuperWebAnalytics.com的主数据集

5.4 总结

第6章 批处理层

6.1 启发性示例

6.2 批处理层上的计算

6.3 重新计算算法与增量算法

6.4 批处理层中的可扩展性

6.5 MapReduce:一种大数据计算的范式

6.6 MapReduce的底层特性

6.7 管道图——一种关于批处理计算的高级思维方式

6.8 总结

第7章 批处理层:示例

7.1 一个例证

7.2 数据处理工具的常见陷阱

7.3 JCascalog介绍

7.4 组合

7.5 总结

第8章 批处理层示例:架构和算法

8.1 SuperWebAnalytics.com批处理层的设计

8.2 工作流概述

8.3 获取新数据

8.4 URL规范化

8.5 用户标识符规范化

8.6 页面浏览去重

8.7 计算批处理视图

8.8 总结

第9章 批处理层示例:实现

9.1 出发点

9.2 准备工作流

9.3 获取新数据

9.4 URL规范化

9.5 用户标识符规范化

9.6 页面浏览去重

9.7 计算批处理视图

9.8 总结

第二部分 服务层

第10章 服务层概述

10.1 服务层的性能指标

10.2 规范化/非规范化问题的服务层解决方案

10.3 服务层数据库的需求

10.4 设计SuperWebAnalytics.com的服务层

10.5 对比全增量的解决方案

10.6 总结

第11章 服务层:示例

11.1 ElephantDB的基本概念

11.2 创建SuperWebAnalytics.com的服务层

11.3 总结

第三部分 速度层

第12章 实时视图

12.1 计算实时视图

12.2 存储实时视图

12.3 增量计算的挑战

12.4 异步更新与同步更新

12.5 过期实时视图

12.6 总结

第13章 实时视图:示例

13.1 Cassandra的数据模型

13.2 使用Cassandra

13.3 总结

第14章 队列和流处理

14.1 队列

14.2 流处理

14.3 更高层次的一次一个的流处理

14.4 SuperWebAnalytics.com速度层

14.5 总结

第15章 队列和流处理:示例

15.1 使用Apache Storm定义拓扑结构

15.2 Apache Storm集群及其部署

15.3 保证消息处理

15.4 实现SuperWebAnalytics.com给定时间范围内的独立访客的速度层

15.5 总结

第16章 微批量流处理

16.1 实现有且仅有一次语义

16.2 微批量流处理的核心概念

16.3 微批量流处理的扩展管道图

16.4 完成SuperWebAnalytics.com的速度层

16.5 另一个跳出率分析示例

16.6 总结

第17章 微批量流处理:示例

17.1 使用Trident

17.2 完成SuperWebAnalytics.com的速度层

17.3 完全容错、基于内存及微批量处理

17.4 总结

第18章 深入Lambda架构

18.1 定义数据系统

18.2 批处理层和服务层

18.3 速度层

18.4 查询层

18.5 总结

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部