本书带领读者深探索实时分析系统,包括这些系统的核心功能以及它们所解决的复杂问题。通过阅读本书,数据工程师将获得使用Kafka、Google Pub/Sub和AWS Kinesis等事件处理系统行数据流实时分析的实践技能。洞察数据的速度越快,就越能迅捷地识别业务动态,并及时做出响应。本书提供了对实时分析领域的全面概览,并介绍了构建实时应用程序所需的专业知识。书中提供了一系列实践教程,并详细演示了如何融合多种软件产品来造一个虚拟比萨外卖服务的实时分析应用程序,从而将理论与实践完美结合。
售 价:¥
纸质售价:¥55.30购买纸书
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐
O'Reilly Media, Inc.介绍
译者序
前言
第1章 实时分析简介
1.1 什么是事件流
1.2 理解流数据
1.3 什么是实时分析
1.4 实时分析的优势
1.4.1 新的收入来源
1.4.2 及时洞察客户
1.4.3 降低基础设施成本
1.4.4 改善整体客户体验
1.5 实时分析用例
1.5.1 面向用户的分析
1.5.2 个性化
1.5.3 指标
1.5.4 异常检测和根本原因分析
1.5.5 可视化
1.5.6 即时分析
1.5.7 日志分析/文本搜索
1.6 对实时分析应用程序进行分类
1.6.1 面向内部与面向外部
1.6.2 面向机器与面向人类
1.7 本章小结
第2章 实时分析生态系统
2.1 定义实时分析生态系统
2.2 经典流处理技术栈
2.2.1 复杂事件处理
2.2.2 大数据时代
2.3 现代流处理技术栈
2.3.1 事件生成器
2.3.2 流处理数据平台
2.3.3 流处理层
2.3.4 服务层
2.3.5 前端
2.4 本章小结
第3章 介绍AATD:比萨外卖店的实时分析
3.1 现有架构
3.2 设置
3.2.1 MySQL
3.2.2 Apache Kafka
3.2.3 ZooKeeper
3.2.4 订单服务
3.2.5 启动组件
3.3 检查数据
3.4 实时分析的应用
3.5 本章小结
第4章 使用Kafka Streams进行查询
4.1 什么是Kafka Streams
4.2 什么是Quarkus
4.3 Quarkus应用程序
4.3.1 安装Quarkus CLI
4.3.2 创建Quarkus应用程序
4.3.3 创建拓扑结构
4.3.4 查询键值存储
4.3.5 创建HTTP端点
4.4 运行应用程序
4.5 查询HTTP端点
4.6 Kafka Streams的局限性
4.7 本章小结
第5章 服务层——Apache Pinot
5.1 为什么不能使用其他流处理器
5.2 为什么不能使用数据仓库
5.3 什么是Apache Pinot
5.4 Pinot如何对数据进行建模和存储
5.4.1 数据模式
5.4.2 表
5.5 配置
5.6 数据摄取
5.7 Pinot数据浏览器
5.8 索引
5.9 更新Web应用程序
5.10 本章小结
第6章 构建实时分析仪表盘
6.1 仪表盘架构
6.2 什么是Streamlit
6.3 配置
6.4 构建仪表盘
6.5 本章小结
第7章 通过CDC获取产品变化
7.1 从业务数据库获取更改信息
7.2 CDC
7.2.1 为什么需要CDC
7.2.2 什么是CDC
7.2.3 实施CDC的策略
7.2.4 基于日志的数据采集
7.2.5 CDC系统的需求
7.2.6 Debezium
7.3 将CDC应用于AATD
7.3.1 配置
7.3.2 将Debezium连接到MySQL
7.3.3 查询商品数据流
7.3.4 更新产品
7.4 本章小结
第8章 使用Kafka Streams连接流
8.1 使用Kafka Streams丰富订单数据
8.2 将订单项添加到Pinot
8.3 更新订单服务信息
8.4 刷新Streamlit仪表盘
8.5 本章小结
第9章 服务层的插入更新
9.1 订单状态
9.2 丰富订单流信息
9.3 Apache Pinot的插入更新
9.4 更新订单服务
9.4.1 创建用户资源文件
9.4.2 添加一个所有用户的端点
9.4.3 为用户端点添加订单
9.4.4 添加单个订单端点
9.4.5 实现跨资源共享
9.5 前端应用程序
9.6 仪表盘上的订单状态
9.6.1 每个订单状态的耗时
9.6.2 可能被延误的订单
9.7 本章小结
第10章 地理空间查询
10.1 交付状态
10.2 更新Apache Pinot
10.2.1 订单
10.2.2 交付状态
10.3 更新订单服务
10.3.1 个人订单
10.3.2 按地区划分的延迟订单
10.3.3 使用新的API端点
10.4 本章小结
第11章 生产环境中的注意事项
11.1 前期准备
11.1.1 容量规划
11.1.2 数据分区
11.1.3 吞吐量
11.1.4 数据保留
11.1.5 数据粒度
11.1.6 总数据大小
11.1.7 复制因子
11.2 部署平台
11.2.1 自身技能
11.2.2 数据隐私和安全
11.2.3 成本
11.2.4 控制
11.3 后期管理
11.3.1 监控和报警
11.3.2 数据治理
11.4 本章小结
第12章 现实世界中的实时分析
12.1 内容推荐(专业社交网络)
12.1.1 问题
12.1.2 解决方案
12.1.3 收益
12.2 运营分析(流媒体服务)
12.2.1 问题
12.2.2 解决方案
12.2.3 收益
12.3 实时广告分析(网上商城)
12.3.1 问题
12.3.2 解决方案
12.3.3 收益
12.4 面向用户的分析(协作平台)
12.4.1 问题
12.4.2 解决方案
12.4.3 收益
12.5 本章小结
第13章 实时分析的未来
13.1 边缘分析
13.2 计算存储分离
13.3 湖仓一体
13.4 实时数据可视化
13.5 流式数据库
13.6 流数据平台即服务
13.7 反向ETL
13.8 本章小结
作者简介
封面简介
推荐阅读
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜