当当云阅读 > 科技 > 计算机/网络 > 计算机理论与教程 > HAWQ数据仓库与数据挖掘实战

| | 手机阅读

扫描下载当当云阅读App

HAWQ数据仓库与数据挖掘实战电子书

售价：¥

纸质售价：¥74.00购买纸书

89人正在读 | 0人评论

6.2

作者：王雪迎

出版社：清华大学出版社

出版时间：2018-04-01

字数：24.2万

所属分类：科技 > 计算机/网络 > 计算机理论与教程

温馨提示：数字商品不支持退换货，不提供源文件，不支持导出打印

为你推荐

读书简介
目录
累计评论(0条)

读书简介
目录
累计评论(0条)

Apache HAWQ是一个SQL-on-Hadoop产品，它非常适合用于Hadoop平台上快速构建数据仓库系统。HAWQ具有大规模并行处理、完善的SQL兼容性、支持存储过程和事务、出色的性能表现等特性，还可与源数据挖掘库MADlib轻松整合，从而使用SQL就能行数据挖掘与机器学习。《HAWQ数据仓库与数据挖掘实战》内容分技术解析、实战演练与数据挖掘三个部分共27章。技术解析部分说明HAWQ的基础架构与功能特性，包括安装、连、对象与资源管理、查询优化、备份恢复、高可用性等。实战演练部分用一个完整的示例，说明如何使用HAWQ取代传统数据仓库，包括ETL处理、自动调度系统、维度表与事实表技术、OLAP与数据的图形化表示等。数据挖掘部分用实例说明HAWQ与MADlib整合，实现降维、协同过滤、关联规则、回归、聚类、分类等常见数据挖掘与机器学习方法。《HAWQ数据仓库与数据挖掘实战》适合数据库管理员、大数据技术人员、Hadoop技术人员、数据仓库技术人员，也适合高等院校和培训机构相关专业的师生教学参考。 【推荐语】 HAWQ安装、连、对象与资源管理、查询优化、备份恢复、高可用性、运维监控ETL处理、自动调度系统、维度表与事实表技术、OLAP与数据的图形化表示降维、协同过滤、关联规则、回归、聚类、分类等常见数据挖掘与机器学习方法 【作者】 王雪迎，毕业于中国地质大学计算机专业，高级工程师，从事数据库、数据仓库相关技术工作20年。先后供职于北京现代商业信息技术有限公司、北京在线九州信息技术服务有限公司、华北计算技术研究所、北京优贝在线网络科技有限公司，担任DBA、数据架构师等职位。著有图书《Hadoop数据仓库实践》。

目录展开

作者简介

内容简介

推荐序

前言

第一部分 HAWQ技术解析

第1章 HAWQ概述

1.1 SQL-on-Hadoop

1.2 HAWQ简介

1.3 HAWQ系统架构

1.4 为什么选择HAWQ

1.5 小结

第2章 HAWQ安装部署

2.1 安装规划

2.2 安装前准备

2.3 安装Ambari

2.4 安装HDP集群

2.5 安装HAWQ

2.6 启动与停止HAWQ

2.7 小结

第3章连接管理

3.1 配置客户端身份认证

3.2 管理角色与权限

3.3 psql连接HAWQ

3.4 Kettle连接HAWQ

3.5 连接常见问题

3.6 小结

第4章数据库对象管理

4.1 创建和管理数据库

4.2 创建和管理表空间

4.3 创建和管理模式

4.4 创建和管理表

4.5 创建和管理视图

4.6 管理其他对象

4.7 小结

第5章分区表

5.1 HAWQ中的分区表

5.2 确定分区策略

5.3 创建分区表

5.4 分区消除

5.5 分区表维护

5.6 小结

第6章存储管理

6.1 数据存储选项

6.2 数据分布策略

6.3 从已有的表创建新表

6.4 小结

第7章资源管理

7.1 HAWQ资源管理概述

7.2 配置独立资源管理器

7.3 整合YARN

7.4 管理资源队列

7.5 查询资源管理器状态

7.6 小结

第8章数据管理

8.1 基本数据操作

8.2 数据装载与卸载

8.3 数据库统计

8.4 PXF

8.5 小结

第9章过程语言

9.1 HAWQ内建SQL语言

9.2 PL/pgSQL函数

9.3 给HAWQ内部函数起别名

9.4 表函数

9.5 参数个数可变的函数

9.6 多态类型

9.7 UDF管理

9.8 UDF实例——递归树形遍历

9.9 小结

第10章查询优化

10.1 HAWQ的查询处理流程

10.2 GPORCA查询优化器

10.3 性能优化

10.4 查询剖析

10.5 小结

第11章高可用性

11.1 备份与恢复

11.2 高可用性

11.3 小结

第二部分 HAWQ实战演练

第12章建立数据仓库示例模型

12.1 业务场景

12.2 数据仓库架构

12.3 实验环境

12.4 HAWQ相关配置

12.5 创建示例数据库

12.6 小结

第13章初始ETL

13.1 用Sqoop初始数据抽取

13.2 向HAWQ初始装载数据

13.3 建立初始ETL脚本

13.4 小结

第14章定期ETL

14.1 变化数据捕获

14.2 创建维度表版本视图

14.3 创建时间戳表

14.4 用Sqoop定期数据抽取

14.5 建立定期装载HAWQ函数

14.6 建立定期ETL脚本

14.7 测试

14.8 动态分区滚动

14.9 准实时数据抽取

14.10 小结

第15章自动调度执行ETL作业

15.1 Oozie简介

15.2 建立工作流前的准备

15.3 用Oozie建立定期ETL工作流

15.4 Falcon简介

15.5 用Falcon process调度Oozie工作流

15.6 小结

第16章维度表技术

16.1 增加列

16.2 维度子集

16.3 角色扮演维度

16.4 层次维度

16.5 退化维度

16.6 杂项维度

16.7 维度合并

16.8 分段维度

16.9 小结

第17章事实表技术

17.1 周期快照

17.2 累积快照

17.3 无事实的事实表

17.4 迟到的事实

17.5 累积度量

17.6 小结

第18章联机分析处理

18.1 联机分析处理简介

18.2 联机分析处理实例

18.3 交互查询与图形化显示

18.4 小结

第三部分 HAWQ数据挖掘

第19章整合HAWQ与MADlib

19.1 MADlib简介

19.2 安装与卸载MADlib

19.3 MADlib基础

19.4 小结

第20章奇异值分解

20.1 奇异值分解简介

20.2 MADlib奇异值分解函数

20.3 奇异值分解实现推荐算法

20.4 小结

第21章主成分分析

21.1 主成分分析简介

21.2 MADlib的PCA相关函数

21.3 PCA应用示例

21.4 小结

第22章关联规则方法

22.1 关联规则简介

22.2 Apriori算法

22.3 MADlib的Apriori算法函数

22.4 Apriori应用示例

22.5 小结

第23章聚类方法

23.1 聚类方法简介

23.2 k-means方法

23.3 MADlib的k-means相关函数

23.4 k-means应用示例

23.5 小结

第24章回归方法

24.1 回归方法简介

24.2 Logistic回归

24.3 MADlib的Logistic回归相关函数

24.4 Logistic回归示例

24.5 小结

第25章分类方法

25.1 分类方法简介

25.2 决策树

25.3 MADlib的决策树相关函数

25.4 决策树示例

25.5 小结

第26章图算法

26.1 图算法简介

26.2 单源最短路径

26.3 MADlib的单源最短路径相关函数

26.4 单源最短路径示例

26.5 小结

第27章模型验证

27.1 交叉验证简介

27.2 MADlib的交叉验证相关函数

27.3 交叉验证示例

27.4 小结

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论，分享你的想法吧！

发表评论

买过这本书的人还买过

读了这本书的人还在读

支持设备

Excel大神是怎么做表的￥45.00

吉田拳

￥45.00

你好!Python ￥60.00

关东升

￥60.00

算法基础:打开算法之门(双色版) ￥47.00

(美)托马斯·H· 科尔曼(Thomas H· Cormen)

￥47.00

架构师启示录:知识模型、落地方法与思维模式￥47.00

灵犀

￥47.00

巧用ChatGPT进行数据分析与挖掘￥59.00

谢佳标

￥59.00

精通API架构:设计、运维与演进￥59.00

(英)詹姆斯·高夫;(英)丹尼尔·布莱恩特;(英)马修·奥本

￥59.00

速学Linux:系统应用从入门到精通￥60.00

良许

￥60.00

Excel财务数据分析与可视化￥55.30

羊依军陆群

￥55.30

大模型RAG实战:RAG原理、应用与系统构建￥59.00

汪鹏;谷清水;卞龙鹏

￥59.00

C#上位机开发实战指南￥55.30

付加劲

￥55.30

更多同类图书 >

HAWQ数据仓库与数据挖掘实战电子书

支持设备

Excel大神是怎么做表的 ￥45.00

你好!Python ￥60.00

算法基础:打开算法之门(双色版) ￥47.00

架构师启示录:知识模型、落地方法与思维模式 ￥47.00

巧用ChatGPT进行数据分析与挖掘 ￥59.00

精通API架构:设计、运维与演进 ￥59.00

速学Linux:系统应用从入门到精通 ￥60.00

Excel财务数据分析与可视化 ￥55.30

大模型RAG实战:RAG原理、应用与系统构建 ￥59.00

C#上位机开发实战指南 ￥55.30

当当云阅读

Excel大神是怎么做表的￥45.00

架构师启示录:知识模型、落地方法与思维模式￥47.00

巧用ChatGPT进行数据分析与挖掘￥59.00

精通API架构:设计、运维与演进￥59.00

速学Linux:系统应用从入门到精通￥60.00

Excel财务数据分析与可视化￥55.30

大模型RAG实战:RAG原理、应用与系统构建￥59.00

C#上位机开发实战指南￥55.30