万本电子书0元读

万本电子书0元读

顶部广告

剑指大数据——Hive学习精要电子书

本书基于Hive3.1.3版本进行编写,首先,简单介绍了Hive的起源和发展,以及Hive的安装和部署;其次,分别介绍了Hive的数据定义语言、数据操作语言、查询语言,以及各种函数,其中穿插安排了大量的综合案例练习;再次,讲解了分区表和分桶表,以及文件的压缩;*后,重点讲解了Hive在使用不同执行引擎时的企业级性能调优手段。

售       价:¥

纸质售价:¥103.60购买纸书

1人正在读 | 0人评论 6.3

作       者:尚硅谷教育

出  版  社:电子工业出版社

出版时间:2024-05-01

字       数:15.2万

所属分类: 科技 > 计算机/网络 > 计算机理论与教程

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
Hive是大数据领域的一项重要发工具。本书基于Hive3.1.3版本行编写,首先,简单介绍了Hive的起源和发展,以及Hive的安装和部署;其次,分别介绍了Hive的数据定义语言、数据操作语言、查询语言,以及各种函数,其中穿插安排了大量的综合案例练习;再次,讲解了分区表和分桶表,以及文件的压缩;*后,重讲解了Hive在使用不同执行引擎时的企业级性能调优手段。 本书广泛适用于大数据的学习者和从业人员、Hive初学者,以及高等院校大数据相关专业的学生。
目录展开

内容简介

前言

第1章 Hive入门

1.1 什么是Hadoop

1.2 什么是Hive

1.3 Hive的架构

1.4 学前导读

1.4.1 学习的基本要求

1.4.2 环境准备

1.5 本章总结

第2章 Hive的安装部署

2.1 Hive的安装

2.1.1 Hive初体验

2.1.2 MySQL的安装和元数据配置

2.1.3 Hive的服务部署

2.2 Hive的使用技巧

2.2.1 常用交互命令

2.2.2 参数配置方式

2.2.3 常见属性配置

2.3 本章总结

第3章 数据定义语言

3.1 数据库的定义

3.2 表的定义

3.2.1 创建表

3.2.2 表的其他定义语言

3.3 本章总结

第4章 数据操作语言

4.1 数据加载

4.2 数据插入

4.2.1 将查询结果插入表中

4.2.2 将给定values插入表中

4.2.3 将查询结果写入目标路径

4.3 数据的导出和导入

4.4 本章总结

第5章 查询

5.1 数据准备

5.2 基本查询

5.2.1 select子句——全表和特定列查询

5.2.2 列别名

5.2.3 limit子句

5.2.4 order by子句

5.2.5 where子句

5.2.6 关系运算符

5.2.7 逻辑运算符

5.2.8 算术运算符

5.3 分组聚合

5.3.1 聚合函数

5.3.2 group by子句

5.3.3 having子句

5.4 join连接

5.4.1 join连接语法的简介与表别名

5.4.2 数据准备

5.4.3 连接分类

5.4.4 多表连接

5.4.5 笛卡儿积连接

5.4.6 join连接与MapReduce程序

5.4.7 联合(union&union all)

5.5 本章总结

第6章 综合案例练习之基础查询

6.1 环境准备

6.2 简单查询练习

6.3 汇总与分组练习

6.3.1 汇总练习

6.3.2 分组练习

6.3.3 对分组结果进行条件查询

6.3.4 查询结果排序和分组指定条件

6.4 复杂查询练习

6.5 多表查询练习

6.5.1 表连接

6.5.2 多表连接

6.6 本章总结

第7章 初级函数

7.1 函数简介

7.2 单行函数

7.2.1 数值函数

7.2.2 字符串函数

7.2.3 日期函数

7.2.4 流程控制函数

7.2.5 集合函数

7.2.6 案例演示

7.3 高级聚合函数

7.4 本章总结

第8章 综合案例练习之初级函数

8.1 环境准备

8.1.1 用户信息表

8.1.2 商品信息表

8.1.3 商品品类信息表

8.1.4 订单信息表

8.1.5 订单明细表

8.1.6 用户登录明细表

8.1.7 商品价格变更明细表

8.1.8 配送信息表

8.1.9 好友关系表

8.1.10 收藏信息表

8.2 初级函数练习

8.2.1 筛选2021年总销量低于100件的商品

8.2.2 查询每日新增用户数

8.2.3 用户注册、登录、下单综合统计

8.2.4 向用户推荐好友收藏的商品

8.2.5 男性和女性用户每日订单总金额统计

8.2.6 购买过商品1和商品2但没有购买过商品3的用户统计

8.2.7 每日商品1和商品2的销量差值统计

8.2.8 根据商品销售情况进行商品分类

8.2.9 查询有新增用户的日期的新增用户数和新增用户1日留存率

8.2.10 登录次数及交易次数统计

8.2.11 统计每个商品各年度销售总金额

8.2.12 某周内每个商品的每日销售情况

8.2.13 形成同期商品售卖分析表

8.2.14 国庆节期间每个商品的总收藏量和总购买量统计

8.2.15 国庆节期间各品类商品的7日动销率和滞销率

8.3 本章总结

第9章 高级函数

9.1 表生成函数

9.1.1 常用的UDTF

9.1.2 案例演示

9.2 窗口函数

9.2.1 语法讲解

9.2.2 常用窗口函数

9.2.3 案例演示

9.3 用户自定义函数

9.3.1 概述

9.3.2 自定义UDF函数案例

9.4 本章总结

第10章 综合案例练习之高级函数

10.1 高级函数练习题

10.1.1 查询各品类销售商品的种类数及销量最高的商品

10.1.2 查询首次下单后第二日连续下单的用户比率

10.1.3 每件商品销售首年的年份、销售数量和销售总金额

10.1.4 查询所有用户连续登录2日及以上的日期区间

10.1.5 订单金额趋势分析

10.1.6 查询每名用户登录日期的最大空档期

10.1.7 查询同一时间多地登录的用户

10.1.8 销售总金额完成任务指标的商品

10.1.9 各品类中商品价格的中位数

10.1.10 求商品连续售卖的时间区间

10.1.11 根据活跃间隔对用户进行分级的结果统计

10.2 面试真题

10.2.1 同时在线人数问题

10.2.2 会话划分问题

10.2.3 间断连续登录用户问题

10.2.4 日期交叉问题

10.3 本章总结

第11章 分区表和分桶表

11.1 分区表

11.1.1 分区表基本语法

11.1.2 二级分区表

11.1.3 动态分区

11.2 分桶表

11.2.1 分桶表基本语法

11.2.2 分桶排序表

11.3 本章总结

第12章 文件格式和压缩

12.1 文件格式

12.1.1 Text Flile

12.1.2 ORC

12.1.3 Parquet

12.2 压缩

12.2.1 压缩算法概述

12.2.2 Hive表数据进行压缩

12.2.3 计算过程中使用压缩

12.3 本章总结

第13章 MapReduce引擎下的企业级性能调优

13.1 测试数据准备

13.1.1 订单表(2000万条数据)

13.1.2 支付表(600万条数据)

13.1.3 商品信息表(100万条数据)

13.1.4 省(区、市)信息表(34条数据)

13.2 计算资源配置调优

13.2.1 YARN资源配置调优

13.2.2 MapReduce资源配置调优

13.3 使用explain命令查看执行计划

13.3.1 基本语法

13.3.2 案例实操

13.3.3 执行计划分析

13.4 分组聚合

13.4.1 优化说明

13.4.2 优化案例

13.5 Join优化

13.5.1 Join算法概述

13.5.2 Map Join

13.5.3 Bucket Map Join

13.5.4 Sort Merge Bucket Map Join

13.6 数据倾斜

13.6.1 数据倾斜概述

13.6.2 分组聚合导致的数据倾斜

13.6.3 join连接导致的数据倾斜

13.7 任务并行度

13.7.1 优化说明

13.7.2 优化案例

13.8 小文件合并

13.8.1 优化说明

13.8.2 优化案例

13.9 其他性能优化手段

13.9.1 CBO优化

13.9.2 谓词下推

13.9.3 矢量化查询

13.9.4 Fetch抓取

13.9.5 本地模式

13.9.6 并行执行

13.9.7 严格模式

13.10 本章总结

第14章 Hive On Tez的企业级性能调优

14.1 初识Hive On Tez

14.1.1 Tez概述

14.1.2 Hive On Tez部署

14.2 计算资源配置

14.3 执行计划与统计信息

14.3.1 执行计划

14.3.2 统计信息

14.4 任务并行度

14.4.1 优化说明

14.4.2 Reducer并行度优化案例

14.5 分组聚合

14.6 Join

14.6.1 Join算法

14.6.2 Hive On Tez中Join算法的实现

14.6.3 Hive On Tez中Join算法的选择策略

14.6.4 优化案例

14.7 小文件合并

14.7.1 优化说明

14.7.2 优化案例

14.8 数据倾斜

14.9 本章总结

第15章 Hive On Spark的企业级性能调优

15.1 Hive On Spark概述

15.1.1 什么是Spark

15.1.2 Spark的基本架构

15.1.3 Hive On Spark的安装部署

15.2 Spark资源配置

15.2.1 Excutor配置说明

15.2.2 Driver配置说明

15.2.3 Spark配置实操

15.3 使用explain命令查看执行计划

15.4 分组聚合优化

15.5 Join优化

15.6 数据倾斜优化

15.7 计算引擎总结

15.8 本章总结

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部