万本电子书0元读

万本电子书0元读

顶部广告

大数据SQL优化:原理与实践电子书

大数据优化经历了从SQL优化到各种优化理论、技术、产品的过程,目前发展到再次回归SQL优化的阶段。SQL是大数据优化的根本,也是必然归宿。但是很多大数据相关从业者已经迷失在了繁多的优化理论和技术中,他们在面的众多平台、插件等各类产品时,会通过各种不同的技术行优化工作,但是最终得到的效果并不能尽如人意。本书两位作者作为长期活跃在大厂研发一线的工程师,不仅对大数据优化有深理解,还一直抱有一颗工匠之心,长期研究大数据优化的底层逻辑,最终总结得到一条可以从底层实现优化的方法,这套方法论具有一定的普适性。本书就是对这套方法论的完整呈现和深度分享。

售       价:¥

纸质售价:¥74.20购买纸书

1人正在读 | 0人评论 6.5

作       者:陈鹤,杨国栋

出  版  社:机械工业出版社

出版时间:2024-12-06

字       数:16.6万

所属分类: 科技 > 计算机/网络 > 计算机理论与教程

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
这是一本站在一线发人员的视角,从SQL的本质出发,采用理论与实践相结合、案例与分析相结合、作者经验与一线需求相结合的方式,深度解读大数据SQL优化核心技术和解决方案的工具书。本书主要面向大数据初中级技术人员,期望帮大家深度理解大数据SQL优化原理,掌握SQL优化的落地实践方法,从而真正“玩转”大数据SQL优化技术,根据实际问题和需求设计出有针对性的提升SQL性能的解决方案。本书共分为4篇,包括10章。认知篇(第1章)主要面向初学者阐述为什么大数据计算或存储引擎发展至今最终选择SQL作为统一查询语言的原因及利弊,大数据SQL从业者目前面临的主要问题,以及调优的两个根本目标。原理篇(第2章)以深浅出的方式解读SQL的本质。为了降低读者理解的门槛,本篇还以Hive、Spark和Flink这三个主流的引擎为例,从源码的角度探索SQL执行背后的秘密。实践篇(第3~9章)首先深解读引擎查询优化器的两大优化策略——基于规则的优化和基于代价的优化的实现原理、示例和局限性,然后以Hive、Spark、Flink等主流引擎为蓝本,探索SQL优化(包括结构与参数调优、子查询优化、连优化、聚合优化)的解决思路和方法论,并给出作者多年总结的一些“坑”。案例篇(第10章)以实践篇的各种真实需求调优历程为基础,以带面,以小明大,分享电商、金融、银行这三个典型行业的典型公司大数据SQL调优案例,还给出了内容平台数仓、查询高可用、实时性数仓等业务场景的解决方案。<br/>【推荐语】<br/>大数据优化经历了从SQL优化到各种优化理论、技术、产品的过程,目前发展到再次回归SQL优化的阶段。SQL是大数据优化的根本,也是必然归宿。但是很多大数据相关从业者已经迷失在了繁多的优化理论和技术中,他们在面的众多平台、插件等各类产品时,会通过各种不同的技术行优化工作,但是最终得到的效果并不能尽如人意。本书两位作者作为长期活跃在大厂研发一线的工程师,不仅对大数据优化有深理解,还一直抱有一颗工匠之心,长期研究大数据优化的底层逻辑,最终总结得到一条可以从底层实现优化的方法,这套方法论具有一定的普适性。本书就是对这套方法论的完整呈现和深度分享。<br/>【作者】<br/>陈鹤 大数据专家和架构师,现任东南亚某电商公司大数据专家,曾就职于VIVO等大厂。长期从事大数据架构、实时数据仓库、流批一体与数据应用平台架构研发工作。在Hadoop、Spark、Flink等方面积累了丰富的经验。曾先后主导或参与了多个电商、金融领域的数据体系建设、疑难项目改造、数据平台架构设计与实现项目。数据之力技术丛书编委会委员,PowerData社区核心成员,拥有丰富的大数据相关写作和授课经验。 杨国栋 数据之力技术丛书编委会主任,杭州电子科技大学硕士,前腾讯软件工程师,《Apache Pulsar原理解析与应用实践》作者。一直就职于头部互联网公司,从事大数据平台与基础架构研发相关工作,在大数据引擎与消息队列引擎方面,一线工作经验特别丰富。热衷知识分享,长期活跃于各个社区。<br/>
目录展开

前言

认知篇

第1章 概述

1.1 大数据的发展历程

1.2 大数据为什么选用SQL

1.3 大数据SQL的弊端

1.4 为什么要调优

原理篇

第2章 SQL的本质

2.1 执行过程提炼

2.2 抽象语法树

2.3 SQL抽象语法树

2.4 Hive执行原理

2.5 Spark执行原理

2.6 Flink执行原理

实践篇

第3章 任劳任怨的引擎

3.1 基于规则优化概述

3.2 基于代价优化的简析

3.3 两种优化的局限性

第4章 调优解决方案

4.1 理解业务,选择需求

4.2 利用执行计划

4.3 利用统计信息

4.4 利用日志

4.5 利用分析工具

4.6 等价重写思想

第5章 结构与参数调优

5.1 参数调优

5.2 利用Hint

5.3 合理的表设计

5.4.存储调整

第6章 子查询优化案例解析

6.1 案例分享

6.2 深度剖析

第7章 连接优化案例解析

7.1 案例分享

7.2 深度剖析

第8章 聚合优化案例解析

8.1 分而治之

8.2 两阶段聚合

8.3 多维聚合转UNION

8.4 异常值过滤

8.5 去重转为求和/计数

8.6 使用其他结构去重

8.7 善用标签

8.8 避免使用FINAL

8.9 转为二进制处理

8.10 行列互置的处理办法

8.11 炸裂函数中的谓词下推

8.12 数据膨胀导致的任务异常

8.13 用MAX替换排序

第9章 SQL优化的“最后一公里”

9.1.谨慎操作NULL值

9.2.决定性能的关键—Shuffle

9.3 数据倾斜的危害

9.4 切莫盲目升级版本

9.5 引擎自优化的利弊

案例篇

第10章 实战案例分享

10.1 某电商业务营销活动实时指标优化方案

10.2 某金融业务风控行为实时指标优化方案

10.3 某银行监管项目实时指标优化方案

10.4 某内容平台数仓建设历程

10.5 订单冷备数据查询高可用方案

10.6 浅谈实时数仓建设

推荐阅读

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部