大数据优化经历了从SQL优化到各种优化理论、技术、产品的过程,目前发展到再次回归SQL优化的阶段。SQL是大数据优化的根本,也是必然归宿。但是很多大数据相关从业者已经迷失在了繁多的优化理论和技术中,他们在面的众多平台、插件等各类产品时,会通过各种不同的技术行优化工作,但是最终得到的效果并不能尽如人意。本书两位作者作为长期活跃在大厂研发一线的工程师,不仅对大数据优化有深理解,还一直抱有一颗工匠之心,长期研究大数据优化的底层逻辑,最终总结得到一条可以从底层实现优化的方法,这套方法论具有一定的普适性。本书就是对这套方法论的完整呈现和深度分享。
售 价:¥
纸质售价:¥74.20购买纸书
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐
前言
认知篇
第1章 概述
1.1 大数据的发展历程
1.2 大数据为什么选用SQL
1.3 大数据SQL的弊端
1.4 为什么要调优
原理篇
第2章 SQL的本质
2.1 执行过程提炼
2.2 抽象语法树
2.3 SQL抽象语法树
2.4 Hive执行原理
2.5 Spark执行原理
2.6 Flink执行原理
实践篇
第3章 任劳任怨的引擎
3.1 基于规则优化概述
3.2 基于代价优化的简析
3.3 两种优化的局限性
第4章 调优解决方案
4.1 理解业务,选择需求
4.2 利用执行计划
4.3 利用统计信息
4.4 利用日志
4.5 利用分析工具
4.6 等价重写思想
第5章 结构与参数调优
5.1 参数调优
5.2 利用Hint
5.3 合理的表设计
5.4.存储调整
第6章 子查询优化案例解析
6.1 案例分享
6.2 深度剖析
第7章 连接优化案例解析
7.1 案例分享
7.2 深度剖析
第8章 聚合优化案例解析
8.1 分而治之
8.2 两阶段聚合
8.3 多维聚合转UNION
8.4 异常值过滤
8.5 去重转为求和/计数
8.6 使用其他结构去重
8.7 善用标签
8.8 避免使用FINAL
8.9 转为二进制处理
8.10 行列互置的处理办法
8.11 炸裂函数中的谓词下推
8.12 数据膨胀导致的任务异常
8.13 用MAX替换排序
第9章 SQL优化的“最后一公里”
9.1.谨慎操作NULL值
9.2.决定性能的关键—Shuffle
9.3 数据倾斜的危害
9.4 切莫盲目升级版本
9.5 引擎自优化的利弊
案例篇
第10章 实战案例分享
10.1 某电商业务营销活动实时指标优化方案
10.2 某金融业务风控行为实时指标优化方案
10.3 某银行监管项目实时指标优化方案
10.4 某内容平台数仓建设历程
10.5 订单冷备数据查询高可用方案
10.6 浅谈实时数仓建设
推荐阅读
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜