万本电子书0元读

万本电子书0元读

顶部广告

实时分析:流数据的分析与可视化技术电子书 租阅

售       价:¥

纸质售价:¥54.50购买纸书

214人正在读 | 0人评论 6.2

作       者:(美)埃利斯(Ellis,B.)

出  版  社:机械工业出版社

出版时间:2016-04-01

字       数:21.9万

所属分类: 科技 > 计算机/网络 > 计算机理论与教程

温馨提示:此类商品不支持退换货,不支持下载打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
本书共11章。第1章介绍常见的流数据的来源、应用以及三个重要特性:持续交付、结构松散和高基数,并阐释对流数据使用基础架构和算法的重要性。第2~6章介绍实时流架构的各组件涉及的软件、框架和方法。第2章概述实时流架构设计涉及的组件、特性、编程语言等。第3章介绍实时流架构的服务配置和协调,重点介绍协调服务器ZooKeeper。第4章阐述实时流架构中数据流程的管理,涉及用来管理数据流程的两个软件包Kafka和Flume。第5章分析流数据的处理,涉及如何用Storm或Samza来处理数据。第6章介绍流数据的存储问题。第7~11章重点关注流数据架构的应用构建问题。第7章讨论从流环境向最终用户的数据交付问题。这是构建仪表板以及其他监控应用所使用的核心机制。第8章涵盖流环境下的聚集计算问题,特别是对多分辨率时间序列数据的聚集计算问题。第9章简要介绍统计学和概率论的基础知识。第10章讨论略图,略图通常具有更快的更新速度和更小的内存占用空间,特别适合流环境。第11章讨论聚集计算之外能够应用于流数据的一些更深入的话题。 本书共11章。第1章介绍常见的流数据的来源、应用以及三个重要特性:持续交付、结构松散和高基数,并阐释对流数据使用基础架构和算法的重要性。第2~6章介绍实时流架构的各组件涉及的软件、框架和方法。第2章概述实时流架构设计涉及的组件、特性、编程语言等。第3章介绍实时流架构的服务配置和协调,重介绍协调服务器ZooKeeper。第4章阐述实时流架构中数据流程的管理,涉及用来管理数据流程的两个软件包Kafka和Flume。第5章分析流数据的处理,涉及如何用Storm或Samza来处理数据。第6章介绍流数据的存储问题。第7~11章重关注流数据架构的应用构建问题。第7章讨论从流环境向最终用户的数据交付问题。这是构建仪表板以及其他监控应用所使用的核心机制。第8章涵盖流环境下的聚集计算问题,特别是对多分辨率时间序列数据的聚集计算问题。第9章简要介绍统计学和概率论的基础知识。第10章讨论略图,略图通常具有更快的更新速度和更小的内存占用空间,特别适合流环境。第11章讨论聚集计算之外能够应用于流数据的一些更深的话题。
【作者】
作 者 简 介Byron Ellis是Spongecell公司的CTO,该公司是一个总部位于纽约的广告技术公司,在旧金山、芝加哥和伦敦设有办事处。他负责公司的研发和计算基础设施的维护工作,在加盟Spongecell之前,他是在线交互技术“领头羊”企业Liveperson公司的首席数据科学家。他还在当时世界*的广告交换公司之一adBrite担任过多项职务。他拥有哈佛大学统计学博士学位,攻读博士学位期间主要研究高吞吐量生物学实验数据中网络结构的学习方法。     技术编辑简介Jose Quinteiro有20年技术经验,参与过许多终端用户、企业、Web软件系统和应用的设计与发工作。他对于包括前后端的设计和实现在内的全套Web技术有着丰富经验。Jose在威廉玛丽学院获得化学学士学位。     Luke Hornof拥有计算机科学博士学位,曾参与创建了多个成功的高科技初创企业。他在编程语言方面发表了十多篇同行评审的论文,曾为微处理器、广告和音乐行业发过商用软件。他目前的兴趣之一是使用数据分析技术来改善Web和移动应用。     Ben Peirce在Spongecell广告技术公司负责研究工作和基础设施的管理。加盟Spongecell之前,他在医疗健康技术初创企业担任过多项职务,他还是SET Media公司的联合创始人之一,该公司是一个视频广告技术公司。他在哈佛大学工程与应用科学学院获得博士学位,研究方向是控制系统和机器人。
目录展开

译者序

前言

致谢

作者简介

技术编辑简介

第1章 流数据简介

1.1 流数据的来源

1.2 流数据的特别之处

1.3 基础架构和算法

1.4 总结

第一部分 流分析架构

第2章 实时流架构设计

2.1 实时架构的组件

2.2 实时架构的特性

2.3 实时编程语言

2.4 实时架构概览

2.5 总结

第3章 服务配置和协调

3.1 配置和协调系统的研发动机

3.2 维护分布式状态

3.3 Apache ZooKeeper

3.4 总结

第4章 流分析中的数据流程管理

4.1 分布式数据流程

4.2 Apache Kafka:高吞吐量分布式消息机制

4.3 Apache Flume:分布式日志采集系统

4.4 总结

第5章 流数据的处理

5.1 分布式流数据处理

5.2 用Storm处理数据

5.3 用Samza处理数据

5.4 总结

第6章 流数据的存储

6.1 一致性哈希

6.2 “NoSQL”存储系统

6.3 其他存储技术

6.4 存储技术的选择

6.5 数据仓库

6.6 总结

第二部分 流分析与可视化

第7章 流度量的交付

7.1 流Web应用

7.2 数据可视化

7.3 移动流应用

7.4 总结

第8章 精确的聚集计算和交付

8.1 定时计数与求和

8.2 多分辨率时间序列的聚集计算

8.3 随机优化

8.4 时间序列数据的交付

8.5 总结

第9章 流数据的统计近似

9.1 数值计算库

9.2 概率和分布

9.3 参数估计

9.4 随机数产生器

9.5 抽样过程

9.6 总结

第10章 使用略图近似流数据

10.1 寄存器和哈希函数

10.2 集合

10.3 Bloom Filter

10.4 Distinct Value略图

10.5 Count-Min略图

10.6 其他应用

10.7 总结

第11章 流数据的应用

11.1 实时数据模型

11.2 用模型预测

11.3 监控

11.4 实时优化

11.5 总结

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部