万本电子书0元读

万本电子书0元读

顶部广告

Greenplum:从大数据战略到实现电子书

售       价:¥

纸质售价:¥112.00购买纸书

141人正在读 | 0人评论 6.2

作       者:冯雷

出  版  社:机械工业出版社

出版时间:2019-07-01

字       数:37.6万

所属分类: 科技 > 计算机/网络 > 程序设计

温馨提示:此类商品不支持退换货,不支持下载打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
本书分为四个部分。第一部分介绍大数据战略。其中,第1章将分享作者对于ABC(人工智能、大数据和云计算)之间关系的理解以及对人和人工智能的思考。第2章将介绍进取型企业为什么需要大数据战略以及如何建立大数据战略。第二部分介绍大数据平台。其中,第3章将以数据平台演进历史和未来趋势为主题,描述三次整合的背景及影响,介绍选择大数据平台需要考虑的因素,以及为什么Greenplum是理想的大数据平台。第4章为Greenplum数据库快速入门指南。第5章将介绍Greenplum架构的主要特点和核心引擎。第6章将介绍数据加载、数据联邦和数据虚拟化。第7章将介绍Greenplum的资源管理以及对混合负载的支持。第三部分介绍机器学习与数据分析。其中,第8章介绍Greenplum的各种过程化编程语言(用户自定义函数),用户可以使用Python、R、Java等语言实现用户自定义函数,还可以通过容器化技术实现自定义函数的安全性和隔离性。第9章将介绍Greenplum内建的机器学习库MADlib,数据科学家可以使用内建的50多种机器学习算法基于SQL对数据进行高级分析,并介绍如何扩展MADlib以实现新算法。第10章和第11章将分别介绍Greenplum如何对文本数据和时空数据(GIS)进行存储、计算和分析。第12章将介绍Greenplum丰富的图计算能力。第四部分介绍运维管理和数据迁移。其中,第13章将介绍各种监控和管理工具及相关企业级产品。第14章介绍数据库备份、恢复和迁移。第15章和第16章将分别介绍如何从Oracle和Teradata迁移到Greenplum。 这是一本系统剖析Greenplum源大数据平台的书籍,也是大数据战略制定与落地的实战型指导书! 本书围绕数字原生和云计算、大数据、人工智能驱动的企业数字化转型的核心诉求,从商业和技术实战视角分享了业界领先企业大数据战略的深刻思考,并提供了大数据战略从制定到落地的全面指导。既有高阶数字化战略高度对大数据的解读,又有技术实战角度对使用 Greenplum 大数据和机器学习平台实现大数据战略的实践指南。 本书作者来自Greenplum 核心研发团队,致力于以源、放的理念和先的技术推大数据产业生态,助力企业以更低的成本、更高的效率实现数字化转型,并基于Greenplum 源社区培养大数据产业更多人才。 本书分为四个部分。 ● *部分介绍大数据战略。其中,第 1 章将分享作者对于人工智能、大数据和 云计算之间关系的理解以及对人和人工智能的思考。第 2 章将介绍取型企业为什 么需要大数据战略以及如何建立大数据战略。 ● 第二部分介绍大数据平台。其中,第 3 章将以数据平台演历史和未来趋势为主 题,描述三次整合的背景及影响,介绍选择大数据平台需要考虑的因素,以及为什么 Greenplum 是理想的大数据平台。第 4 章将介绍 Greenplum 数据库快速门指南。第 5 章将介绍 Greenplum 架构的主要特和核心引擎。第 6 章将介绍数据加载、数据联邦 和数据虚拟化。第 7 章将介绍 Greenplum 的资源管理以及对混合负载的支持。 ● 第三部分介绍机器学习。其中,第 8 章介绍 Greenplum 的各种过程化编程语言(用户 自定义函数),用户可以使用 Python、R、Java 等实现用户自定义函数,还可以通过 容器化技术实现自定义函数的安全性和隔离性。第 9 章将介绍 Greenplum 内建的机器 学习库 MADlib,数据科学家可以使用内建的 50 多种机器学习算法用 SQL 对数据 行高级分析,并介绍如何扩展 MADlib 以实现新算法。第 10 章和第 11 章将分别介绍 Greenplum 如何对文本数据和时空数据(GIS)行存储、计算和分析。第 12 章将介绍 Greenplum 丰富的图计算能力。 ● 第四部分介绍运维管理和数据迁移。其中,第 13 章会介绍各种监控和管理工具及相关 企业级产品。第 14 章介绍数据库备份和恢复。第 15 章和第 16 章将分别介绍如何从 Oracle 和 Teradta 迁移到 Greenplum。
【推荐语】
Greenplum是业界领先的源MPP大数据平台。2019年,Greenplum被Gartner评为全球排名第三的分析型数据库和排名第四的实时分析数据库,且为前十名中*源的产品。中国信息通信研究院评测的14款MPP数据库中约半数基于Greenplum。本书由Greenplum核心研发团队精心编写,融了团队十余年来对云计算、大数据和人工智能驱动的企业数字化转型、先技术发展趋势以及产品研发的深刻思考,对Greenplum这款快速成长的源大数据平台行了全方位深度解读,无论是企业决策者,还是大数据相关的技术人员,都能从本书中获益。
【作者】
冯雷(Ray Feng) Pivotal中国常务董事(Managing Director)兼研发中心总经理。Pivotal中国成立至今,冯雷主持了近十亿人民币投资的中国运营和研发体系。作为Pivotal全球产品关键领导人,为Pivotal公司的数字化理念建立及其对应的Cloud Foundry和Greenplum产品提供战略输。冯雷于2010年从美国硅谷归国,在世界500强公司EMC旗下组建了Pivotal中国。在归国之前,冯雷曾在500强企业甲骨文(Oracle)总部从事云计算产品研发。作为云计算最早的一批从业人员,帮助甲骨文云计算资源调度领域成为意见领袖。拥有多项云计算专利。 姚延栋 Pivotal中国研发中心副总裁,在Pivotal公司全球范围内为Greenplum技术发展路线提供战略输。联合创建了Pivotal中国研发中心,发起了Greenplum中国源社区,奠定了包括阿里云、腾讯云和百度云在内的广大源Greenplum用户群。在Pivotal中国招募并建设了Greenplum和HAWQ团队成为大数据和机器学习的意见领袖,培养团队成员同时成为Apache和Greenplum代码提交者。在创建Greenplum/Pivotal中国之前, 曾在Sun Microsystem 与 Symantec 系统和存储部门工作多年。拥有多项国内外云计算和大数据专利。 高小明 Pivotal中国研发中心Greenplum产品总监,先后参与和负责数据分析协作平台Chorus、源PaaS云平台Cloud Foundry、MPP数据库Greenplum等产品的发、运维和技术推广。目前着重关注PaaS云平台与大数据平台支撑下的数字化转型、微服务架构以及容器化与混合负载给数据产品带来的机遇和挑战。 杨瑜 Pivotal中国研发中心Greenplum工程技术总监,长期从事 Greenplum 内核的研发和管理工作,先后参与和负责基于Greenplum内核的机器学习库MADlib的研发、Greenplum 内核和PostgreSQL内核持续归并等工作,并参与组建Greenplum文本挖掘引擎GPText团队,有丰富的一线内核研发经验。
目录展开

编委会

前言

第一部分 大数据战略

第1章 ABC:人工智能、大数据和云计算

1.1 再谈云计算

1.1.1 云计算由南向转为北向

1.1.2 P层云的精细化发展

1.1.3 大数据系统在云中部署不断朝南上移

1.2 大数据

1.2.1 从CRUD到CRAP

1.2.2 MPP(大规模并行计算)

1.2.3 大数据系统

1.2.4 当大数据遇到云计算

1.3 人工智能

1.3.1 模型化方法

1.3.2 AI的发展史

1.3.3 对AI应用的正确预期

1.4 ABC之间的关系

1.5 AI和人

1.5.1 经验与逻辑

1.5.2 公理化的逻辑系统

1.5.3 图灵机和可计算数

1.5.4 认知边界上的考量

第2章 建立基于大数据的高阶数字化战略

2.1 基于云原生应用的数字化战略

2.2 大数据和AI:企业未来的终极竞争点

2.3 大数据战略的落地

2.3.1 大数据和AI人才

2.3.2 AI驱动的开发方法和文化

2.3.3 大数据基础设施的建设

2.4 大数据和AI的展望

第二部分 大数据平台

第3章 数据处理平台的演进

3.1 前数据处理时代

3.2 早期的电子数据处理

3.2.1 电子计算机的出现

3.2.2 软件

3.3 数据库

3.3.1 数据模型

3.3.2 数据独立性和高级数据处理语言

3.3.3 数据保护

3.3.4 数据库早期发展过程中的困境

3.4 NoSQL数据库

3.4.1 NoSQL出现的背景

3.4.2 NoSQL产品的共性

3.4.3 NoSQL的分类

3.5 SQL数据库的回归

3.5.1 NoSQL与SQL的融合

3.5.2 Hadoop不等于大数据

3.5.3 SQL从未离开

3.6 集成数据处理和分析平台

3.6.1 数据类型

3.6.2 业务场景

3.6.3 集中还是分散

3.7 数据平台的选型

3.8 小结

第4章 Greenplum数据库快速入门

4.1 Greenplum数据库的发展和现状

4.2 Greenplum数据库的特性

4.3 Greenplum数据库的组成

4.4 Greenplum数据库的安装与部署

4.4.1 准备工作

4.4.2 安装Greenplum

4.4.3 初始化Greenplum数据库

4.5 Greenplum数据库的常用操作

4.6 Greenplum数据库的常用命令

4.6.1 gpstart

4.6.2 gpstop

4.6.3 gpstate

4.6.4 gpactivatestandby

4.6.5 gpconfig

4.6.6 gpdeletesystem

4.7 小结

第5章 Greenplum的架构和核心引擎

5.1 Greenplum的架构

5.1.1 Greenplum Master

5.1.2 Greenplum Segment

5.1.3 Greenplum Interconnect

5.1.4 Greenplum Standby Master

5.1.5 Greenplum Mirror Segment

5.2 Greenplum查询计划

5.2.1 单机查询计划

5.2.2 并行查询计划

5.3 Greenplum数据库查询处理的过程

5.3.1 Greenplum数据库的主要功能组件

5.3.2 Greenplum数据库查询的执行流程

5.4 小结

第6章 从ETL到数据联邦和数据虚拟化

6.1 Greenplum中的ETL

6.1.1 PostgreSQL的ETL工具箱

6.1.2 GPLOAD

6.2 Greenplum的数据联邦

6.2.1 dblink简介

6.2.2 外部表

6.2.3 GPFDIST外部表

6.2.4 可执行外部表

6.2.5 Greenplum的S3外部表

6.2.6 GPHDFS外部表

6.2.7 Spark连接器

6.2.8 Gemfire连接器

6.3 Greenplum的数据虚拟化框架

6.3.1 PXF的架构

6.3.2 PXF的环境配置

6.3.3 GPHDFS与PXF比较

6.4 小结

第7章 混合负载和资源管理

7.1 混合负载的机遇和挑战

7.2 混合负载的业务和技术要求

7.3 资源管理

7.4 并发管理

7.5 小结

第三部分 机器学习与数据分析

第8章 Greenplum中的过程化编程语言

8.1 PL/Python

8.1.1 PL/Python简介

8.1.2 受信任的过程化编程语言

8.1.3 安装Python包

8.1.4 安装Greenplum数据计算Python包集合

8.1.5 类型转换

8.1.6 PL/Python函数中的数据共享

8.2 PL/R

8.2.1 PL/R简介

8.2.2 安装R包

8.2.3 安装Greenplum数据计算R包集合

8.3 PL/Container

8.3.1 PL/Container简介

8.3.2 一个简单的例子

8.3.3 PL/Container的基本操作方法

8.3.4 PL/Container实践总结

8.3.5 关于PL/Container的开发

8.4 小结

第9章 MADlib机器学习库

9.1 MADlib入门

9.1.1 MADlib简介

9.1.2 MADlib的特点

9.1.3 MADlib与其他机器学习算法库的比较

9.1.4 MADlib的快速安装

9.2 MADlib的架构

9.2.1 SQL用户接口

9.2.2 Python驱动函数

9.2.3 C++机器学习算法实现

9.2.4 C++数据库抽象层

9.3 MADlib应用

9.3.1 数据预处理

9.3.2 监督学习

9.3.3 非监督学习

9.3.4 时间序列

9.3.5 自定义机器学习算法

9.4 小结

第10章 Greenplum半结构化文本数据分析

10.1 GPText文本分析概述

10.1.1 GPText数据提取

10.1.2 GPText的文本处理、索引流程和高阶分析

10.2 GPText内置的全文检索引擎:Apache SolrCloud

10.3 GPText架构:高速并行索引和查询

10.4 数据准备

10.5 GPText的使用:简单的SQL和UDF函数

10.6 GPText的安装

10.7 GPText索引

10.7.1 创建GPText索引

10.7.2 加载GPText索引

10.7.3 GPText增减索引列

10.8 GPText简单查询

10.8.1 GPText查询的语法

10.8.2 GPText临近查询

10.8.3 GPText top查询

10.9 GPText高级查询

10.9.1 GPText Facet查询

10.9.2 GPText高亮查询结果

10.10 GPText分区表查询

10.11 GPText对自然语言处理的支持

10.12 GPText定制化索引

10.13 GPText管理工具

10.14 GPText用于文本挖掘和分析

10.15 小结

第11章 地理空间数据分析和处理

11.1 概述

11.1.1 什么是地理空间数据

11.1.2 地理空间数据应用与分析中的挑战

11.2 Greenplum PostGIS

11.2.1 Greenplum PostGIS简介

11.2.2 安装Greenplum PostGIS组件

11.2.3 第一次使用

11.3 Greenplum PostGIS应用实例

11.3.1 GIS数据准备

11.3.2 使用Greenplum PostGIS空间数据操作符进行GIS数据查询

11.3.3 使用Greenplum PostGIS的UDF进行GIS数据分析

11.3.4 栅格数据

11.4 小结

第12章 Greenplum数据库与图计算

12.1 图的概念

12.2 图的应用

12.2.1 电子电路设计自动化

12.2.2 搜索引擎

12.2.3 社交网络

12.3 图数据的处理

12.4 Greenplum对图数据的支持

12.5 MADlib中的图结构和算法

12.5.1 图的表示

12.5.2 MADlib支持的图算法

12.5.3 MADlib图算法详解

12.6 小结

第四部分 Greenplum的运维和迁移

第13章 Greenplum的监控和管理

13.1 监控Greenplum集群的状态

13.1.1 gpstate命令

13.1.2 系统表gp_segment_configuration

13.1.3 Segment的故障恢复和再平衡

13.1.4 常用的监控命令

13.2 管理Greenplum集群

13.2.1 参数配置

13.2.2 访问管理

13.2.3 统计信息

13.2.4 管理表膨胀

13.3 Greenplum指令中心(GPCC)

13.3.1 GPCC简介

13.3.2 可视化监控

13.3.3 查询监控和分析

13.3.4 工作负载管理

13.3.5 监控告警系统

13.4 小结

第14章 Greenplum数据库的备份、恢复和迁移

14.1 非并行数据库备份

14.2 非并行数据库恢复

14.3 并行数据库备份

14.4 并行数据库恢复

14.5 高效的并行数据库备份和恢复工具gpbackup/gprestore

14.6 新一代Greenplum数据迁移工具GPCOPY

14.7 小结

第15章 从Oracle迁移到Greenplum

15.1 概述

15.2 Oracle与Greenplum的架构对比

15.2.1 Oracle的主要痛点

15.2.2 Greenplum的优势

15.3 从Oracle迁移到Greenplum的流程

15.3.1 迁移场景

15.3.2 迁移过程

15.3.3 特殊场景分析

15.4 小结

第16章 从Teradata迁移到Greenplum

16.1 Teradata产品和用户面临的问题

16.2 从Teradata迁移到Greenplum的可行性

16.3 如何从Teradata迁移到Greenplum

16.3.1 迁移流程概述

16.3.2 Teradata数据卸载及DDL导出规范

16.3.3 数据操作语句转换

16.3.4 函数转换

16.3.5 ETL应用工具连接转换

16.3.6 其他应用接口迁移

16.4 特殊场景

16.4.1 事前微批去重

16.4.2 事后批量去重

16.5 小结

附录A Greenplum社区

附录B 外部表实例

附录C Greenplum的SSL证书

术语表

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部