万本电子书0元读

万本电子书0元读

顶部广告

Greenplum构建实时数据仓库实践电子书

本书详解Greenplum构建实时数据仓库,涉及的具体技术包括: MySQL主从复制,保证为业务系统提供可靠的数据库服务,并提供数据来源。 Canal Server实时获取增量MySQL binlog,并将其传Kafka消息队列。 Kafka将消息持久化,同时提供可伸缩、高吞吐的消息服务。 Canal ClientAdapter负责消费Kafka中的消息,将数据流传输到Greenplum。 Greenplum提供实时ETL功能,自动维护操作数据存储、维度表与事实表。

售       价:¥

纸质售价:¥70.30购买纸书

35人正在读 | 0人评论 6.5

作       者:王雪迎

出  版  社:清华大学出版社

出版时间:2022-08-01

字       数:28.0万

所属分类: 科技 > 计算机/网络 > 计算机理论与教程

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
Greenplum分布式数据库具有可选存储模式、事务支持、并行查询与数据装载、容错与故障转移、数据库统计、过程化语言扩展等方面的功能特性,因此Greenplum成为一款理想的分析型数据库产品。 本书详解Greenplum数据仓库构建与数据分析技术,配套示例源码。 本书共分10章。内容包括数据仓库简介、数据仓库设计基础、Greenplum与数据仓库、Greenplum安装部署、实时数据同步、实时数据装载、维度表技术、事实表技术、Greenplum运维与监控、集成机器学习库MADlib。 本书适合Greenplum初学者、大数据分析系统设计与发、数据仓库系统设计与发、DBA、架构师等相关技术人员阅读,也适合高等院校大数据相关专业的师生作为实训教材。<br/>【推荐语】<br/>本书详解Greenplum构建实时数据仓库,涉及的具体技术包括: MySQL主从复制,保证为业务系统提供可靠的数据库服务,并提供数据来源。 Canal Server实时获取增量MySQL binlog,并将其传Kafka消息队列。 Kafka将消息持久化,同时提供可伸缩、高吞吐的消息服务。 Canal ClientAdapter负责消费Kafka中的消息,将数据流传输到Greenplum。 Greenplum提供实时ETL功能,自动维护操作数据存储、维度表与事实表。 Greenplum数据库权限与角色管理、数据导导出、性能优化、监控与维护。 Greenplum集成机器学习库MADlib,对数据行分析与挖掘。<br/>【作者】<br/>王雪迎 ,毕业于中国地质大学计算机专业,高级工程师,20年数据库、数据仓库相关技术工作经验。先后供职于北京现代商业信息技术有限公司、北京在线九州信息技术服务有限公司、华北计算技术研究所、北京优贝在线网络科技有限公司,担任DBA、数据架构师等职位。著有图书《Greenplum构建实时数据仓库实践》《Hadoop构建数据仓库实践》《HAWQ数据仓库与数据挖掘实战》《SQL机器学习库MADlib技术解析》《MySQL高可用实践》。<br/>
目录展开

内容简介

推荐序

前言

第1章 数据仓库简介

1.1 什么是数据仓库

1.1.1 数据仓库的定义

1.1.2 建立数据仓库的原因

1.2 操作型系统与分析型系统

1.2.1 操作型系统

1.2.2 分析型系统

1.2.3 操作型系统和分析型系统的对比

1.3 抽取—转换—装载

1.3.1 数据抽取

1.3.2 数据转换

1.3.3 数据装载

1.3.4 开发ETL系统的方法

1.4 数据仓库架构

1.4.1 基本架构

1.4.2 主要数据仓库架构

1.4.3 操作型数据存储

1.5 实时数据仓库

1.5.1 流式处理

1.5.2 实时计算

1.5.3 实时数据仓库解决方案

1.6 小结

第2章 数据仓库设计基础

2.1 关系数据模型

2.1.1 关系数据模型中的结构

2.1.2 关系完整性

2.1.3 关系数据库语言

2.1.4 规范化

2.1.5 关系数据模型与数据仓库

2.2 维度数据模型

2.2.1 维度数据模型建模过程

2.2.2 维度规范化

2.2.3 维度数据模型的特点

2.2.4 星型模式

2.2.5 雪花模式

2.3 Data Vault模型

2.3.1 Data Vault模型简介

2.3.2 Data Vault模型的组成部分

2.3.3 Data Vault模型的特点

2.3.4 Data Vault模型的构建

2.3.5 Data Vault模型实例

2.4 数据集市

1.数据集市的概念

2.数据集市与数据仓库的区别

3.数据集市设计

2.5 数据仓库实施步骤

2.6 小结

第3章 Greenplum与数据仓库

3.1 Greenplum简介

3.1.1 历史与现状

3.1.2 MPP——一切皆并行

3.2 Greenplum系统架构

3.2.1 Greenplum与PostgreSQL

3.2.2 Master

3.2.3 Segment

3.2.4 Interconnect

3.3 Greenplum功能特性

3.3.1 存储模式

3.3.2 事务与并发控制

3.3.3 并行查询

3.3.4 并行数据装载

3.3.5 冗余与故障转移

3.3.6 数据库统计

3.4 为什么选择Greenplum

3.4.1 Greenplum还是SQL-on-Hadoop

3.4.2 适合DBA的解决方案

3.4.3 Greenplum的局限

3.5 小结

第4章 Greenplum安装部署

4.1 平台需求

4.1.1 操作系统

4.1.2 硬件和网络

4.1.3 文件系统

4.2 容量评估

4.2.1 可用磁盘空间

4.2.2 用户数据容量

4.2.3 元数据和日志空间

4.2.4 RAID划分最佳实践

4.3 操作系统配置

4.3.1 安装操作系统

4.3.2 禁用SELinux和防火墙

4.3.3 操作系统推荐配置

4.3.4 时钟同步

4.3.5 创建Greenplum管理员账号

4.3.6 安装JDK(可选)

4.4 安装Greenplum软件

4.4.1 安装软件包

4.4.2 配置免密SSH

4.4.3 确认软件安装

4.5 初始化Greenplum数据库系统

4.5.1 创建数据存储区

4.5.2 验证系统

4.5.3 初始化数据库

4.5.4 设置Greenplum环境变量

4.6 允许客户端连接

4.7 修改Greenplum配置参数

4.8 后续步骤

4.8.1 创建临时表空间

4.8.2 创建数据库用户

4.9 Greenplum升级

4.9.1 升级条件

4.9.2 升级步骤

4.10 小结

第5章 实时数据同步

5.1 数据抽取方式

5.1.1 基于源数据的CDC

5.1.2 基于触发器的CDC

5.1.3 基于快照的CDC

5.1.4 基于日志的CDC

5.2 MySQL数据复制

5.2.1 复制的用途

5.2.2 二进制日志binlog

5.2.3 复制的步骤

5.3 使用Kafka

5.3.1 Kafka基本概念

5.3.2 Kafka消费者与分区

5.4 选择主题分区数

5.4.1 使用单分区

5.4.2 如何选定分区数量

5.5 Maxwell + Kafka + Bireme

5.5.1 总体架构

5.5.2 Maxwell安装配置

5.5.3 Bireme安装配置

5.5.4 如何保证数据的顺序消费

5.5.5 实时CDC

5.6 Canal Server + Kafka + Canal ClientAdapter

5.6.1 总体架构

5.6.2 Canal Server安装配置

5.6.3 Canal ClientAdapter安装配置

5.6.4 配置HA模式

5.6.5 实时CDC

5.6.6 消费延迟监控

5.7 小结

第6章 实时数据装载

6.1 建立数据仓库示例模型

6.1.1 业务场景

6.1.2 建立数据库表

6.1.3 生成日期维度数据

6.2 初始装载

6.2.1 数据源映射

6.2.2 确定SCD处理方法

6.2.3 实现代理键

6.2.4 执行初始装载

6.3 实时装载

6.3.1 识别数据源与装载类型

6.3.2 配置增量数据同步

6.3.3 在Greenplum中创建规则

6.3.4 启动实时装载

6.3.5 测试

6.4 动态分区滚动

6.5 小结

第7章 维度表技术

7.1 增加列

7.2 维度子集

7.3 角色扮演维度

7.4 层次维度

7.4.1 固定深度的层次

7.4.2 多路径的层次

7.4.3 参差不齐的层次

7.5 退化维度

7.6 杂项维度

7.7 维度合并

7.8 分段维度

7.9 小结

第8章 事实表技术

8.1 事实表概述

8.2 周期快照

8.3 累积快照

8.4 无事实的事实表

8.5 迟到的事实

8.6 累积度量

8.7 小结

第9章 Greenplum运维与监控

9.1 权限与角色管理

9.1.1 Greenplum中的角色与权限

9.1.2 管理角色及其成员

9.1.3 管理对象权限

9.1.4 口令加密

9.2 数据导入导出

9.2.1 file://协议及其外部表

9.2.2 gpfdist及其外部表

9.2.3 基于Web的外部表

9.2.4 外部表错误处理

9.2.5 使用gpload导入数据

9.2.6 使用COPY互拷数据

9.2.7 导出数据

9.2.8 格式化数据文件

9.3 性能优化

9.3.1 常用优化手段

9.3.2 控制溢出文件

9.3.3 查询剖析

9.4 例行监控

9.4.1 检查系统状态

9.4.2 检查磁盘空间使用

9.4.3 检查数据分布倾斜

9.4.4 查看数据库对象的元数据信息

9.4.5 查看会话的内存使用信息

9.4.6 查看工作文件使用信息

9.4.7 查看服务器日志文件

9.5 例行维护

9.5.1 定期VACUUM

9.5.2 定期维护系统目录

9.5.3 加强的系统目录维护

9.5.4 为查询优化执行VACUUM与ANALYZE

9.5.5 自动收集统计信息

9.5.6 重建索引

9.5.7 管理数据库日志文件

9.6 推荐的监控与维护任务

9.6.1 数据库实例状态监控

9.6.2 硬件和操作系统监控

9.6.3 系统目录表监控

9.6.4 数据库维护

9.6.5 补丁与升级

9.7 小结

第10章 集成机器学习库MADlib

10.1 MADlib的基本概念

10.1.1 MADlib是什么

10.1.2 MADlib的设计思想

10.1.3 MADlib的工作原理

10.1.4 MADlib的执行流程

10.1.5 MADlib的基础架构

10.2 MADlib的功能

10.2.1 MADlib支持的模型类型

10.2.2 MADlib主要的功能模块

10.3 MADlib的安装与卸载

10.3.1 确定安装平台

10.3.2 安装MADlib

10.3.3 卸载MADlib

10.4 MADlib示例——使用矩阵分解实现用户推荐

10.4.1 低秩矩阵分解

10.4.2 奇异值分解

10.5 模型评估

10.5.1 交叉验证

10.5.2 MADlib的交叉验证相关函数

10.5.3 交叉验证示例

10.6 小结

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部