万本电子书0元读

万本电子书0元读

顶部广告

Apache Kylin权威指南(第2版)电子书

售       价:¥

纸质售价:¥78.20购买纸书

297人正在读 | 0人评论 6.2

作       者:Apache Kylin核心团队

出  版  社:机械工业出版社

出版时间:2019-08-01

字       数:24.1万

所属分类: 科技 > 计算机/网络 > 程序设计

温馨提示:此类商品不支持退换货,不支持下载打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
本书由Apache Kylin核心发团队编写,近两年Apache Kylin随着社区持续贡献的热度和在不同领域业务场景的深实践应用,新的功能和特性不断涌现,这样就迫切需要更新内容来满足广大Apache Kylin 的使用者和关注人群的需要。本书从Apache Kylin的架构和设计,各个模块的使用,与第三方的整合,二次发以及源实践等各个方面行讲解,为各位读者呈现*核心的设计理念和哲学、算法和技术等。 Apache Kylin 是由中国人主导的Apache项目,是Hadoop大数据平台上的一个源 OLAP 引擎,将大数据的查询速度和并发性能提升百倍以上,为超大规模数据集上的交互式大数据分析了大门。本书由 Apache Kylin 核心发团队编写,系统地介绍了 Apache Kylin 安装、门、调优、可视化、运维管理、流式计算、Spark 构建、扩展发、跟主流云平台的集成,以及经典案例等各个方面,是系统学习Apache Kylin的优秀材料。 第1章和第2章是基本概念和快速门,为初学者下坚实基础。第3章和第4章介绍基本的 Cube 优化手段和增量构建。第5章展示丰富的查询口和其上的可视化能力。第6章介绍了基于 Cube Planner 的自动优化的核心算法和原理。第7章是阶的流式准实时构建,以将构建的批次间隔缩短到分钟级。第8章介绍如何使用 Spark 行 Cube 构建,以及如何调优性能。第9章通过介绍若干 Kylin 的重案例,以帮助读者理解 Kylin 的使用场景和重要价值。第10章介绍可扩展架构和二次发口,适合高级发者。第11章则介绍企业级功能、用户的认证和授权相关知识。第12章着重于问题的排查诊断、日常的运维管理,以及如何通过社区获得帮助等内容。第13章分别以AWS,微软 Azure 和阿里云为例,介绍如何在主流云平台上部署和使用 Kylin。第14章说明如何参与和贡献到源项目。*后的第15章,介绍了 Apache Kylin 的未来发展方向。
【推荐语】
1.紧扣热。Apache Kylin是大数据时代的宠儿,是业界目前*实现秒级别交互式大数据分析的源技术,数仓OLAP霸主。 2.内容全面,广度和深度兼顾。不仅是国内关于Apache Kylin 的全面技术书,还融了对于新特性和功能的讲解。 3.作者权威。作者是Apache Kylin的创始团队。 4.实战性强。本书从门始,深浅出,包含众多实际大数据分析案例,让技术落地解决实际问题。
【作者】
本书在2016年一稿撰写的时候,Kylin核心团队刚刚加新成立的Kyligence 公司,一切从头始,当时把写书当作了头等大事,整个六人团队都参与了其中:韩卿、李栋、李扬、马洪宾、史少锋、仲俭,署名“Apache Kylin 核心团队”。三年后,Kyligence 已经发展到一百多人;在更新第二版的时候,更多年轻小伙伴加了来,包括新Kylin Committer/contributor 陈志雄、龙超、翟娜、孙宇婕;BI 专家:何京珂、汤雪;解决方案专家冯礼、李森辉、宗正;技术支持工程师周丁倩,以及市场部美女编辑符云霞等;此外还有许多同事参与了书稿的审阅。他们都义务将自己的业余时间贡献出来,历时数月完成书稿的更新、修正和校对。
目录展开

推荐序

前言

第1章 Apache Kylin概述

1.1 背景和历史

1.2 Apache Kylin的使命

1.2.1 为什么要使用Apache Kylin

1.2.2 Apache Kylin怎样解决关键问题

1.3 Apache Kylin的工作原理

1.3.1 维度和度量简介

1.3.2 Cube和Cuboid

1.3.3 工作原理

1.4 Apache Kylin的技术架构

1.5 Apache Kylin的主要特点

1.5.1 标准SQL接口

1.5.2 支持超大数据集

1.5.3 亚秒级响应

1.5.4 可伸缩性和高吞吐率

1.5.5 BI及可视化工具集成

1.6 与其他开源产品的比较

1.7 小结

第2章 快速入门

2.1 核心概念

2.1.1 数据仓库、OLAP与BI

2.1.2 维度建模

2.1.3 事实表和维度表

2.1.4 维度和度量

2.1.5 Cube、Cuboid和Cube Segment

2.2 在Hive中准备数据

2.2.1 多维数据模型

2.2.2 维度表的设计

2.2.3 Hive表分区

2.2.4 了解维度的基数

2.2.5 样例数据

2.3 安装和启动Apache Kylin

2.3.1 环境准备

2.3.2 必要组件

2.3.3 启动Apache Kylin

2.4 设计Cube

2.4.1 导入Hive表定义

2.4.2 创建数据模型

2.4.3 创建Cube

2.5 构建Cube

2.5.1 全量构建和增量构建

2.5.2 历史数据刷新

2.5.3 合并

2.6 查询Cube

2.6.1 Apache Kylin查询介绍

2.6.2 查询下压

2.7 SQL参考

2.8 小结

第3章 Cube优化

3.1 Cuboid剪枝优化

3.1.1 维度的组合

3.1.2 检查Cuboid数量

3.1.3 检查Cube大小

3.1.4 空间与时间的平衡

3.2 剪枝优化工具

3.2.1 使用衍生维度

3.2.2 聚合组

3.2.3 必需维度

3.2.4 层级维度

3.2.5 联合维度

3.3 并发粒度优化

3.4 Rowkey优化

3.4.1 调整Rowkey顺序

3.4.2 选择合适的维度编码

3.4.3 按维度分片

3.5 Top_N度量优化

3.6 Cube Planner优化

3.7 其他优化

3.7.1 降低度量精度

3.7.2 及时清理无用Segment

3.8 小结

第4章 增量构建

4.1 为什么要增量构建

4.2 设计增量Cube

4.2.1 设计增量Cube的条件

4.2.2 增量Cube的创建

4.3 触发增量构建

4.3.1 Web GUI触发

4.3.2 构建相关的REST API

4.4 管理Cube碎片

4.4.1 合并Segment

4.4.2 自动合并

4.4.3 保留Segment

4.4.4 数据持续更新

4.5 小结

第5章 查询和可视化

5.1 Web GUI

5.1.1 查询

5.1.2 显示结果

5.2 REST API

5.2.1 查询认证

5.2.2 查询请求参数

5.2.3 查询返回结果

5.3 ODBC

5.4 JDBC

5.4.1 获得驱动包

5.4.2 认证

5.4.3 URL格式

5.4.4 获取元数据信息

5.5 Tableau集成

5.5.1 连接Kylin数据源

5.5.2 设计数据模型

5.5.3 “Live”连接

5.5.4 自定义SQL

5.5.5 可视化展现

5.5.6 发布到Tableau Server

5.6 Zeppelin集成

5.6.1 Zeppelin架构简介

5.6.2 KylinInterpreter的工作原理

5.6.3 如何使用Zeppelin访问Kylin

5.7 Superset集成

5.7.1 下载Kylinpy

5.7.2 安装Superset

5.7.3 在Superset中添加Kylin Database

5.7.4 在Superset中添加Kylin Table

5.7.5 在Superset中创建图表

5.7.6 在Superset中通过SQL Lab探索Kylin

5.8 QlikView集成

5.8.1 连接Kylin数据源

5.8.2 “Direct Query”连接

5.8.3 创建可视化

5.8.4 发布到QlikView Server

5.9 Qlik Sense集成

5.9.1 连接Kylin数据源

5.9.2 “Direct Query”连接

5.9.3 创建可视化

5.9.4 发布到Qlik Sense Hub

5.9.5 在Qlik Sense Hub中连接Kylin数据源

5.10 Redash集成

5.10.1 连接Kylin数据源

5.10.2 新建查询

5.10.3 新建仪表盘

5.11 MicroStrategy集成

5.11.1 创建数据库实例

5.11.2 导入逻辑表

5.11.3 创建属性、事实和度量

5.11.4 创建报告

5.11.5 MicroStrategy连接Kylin最佳实践

5.12 小结

第6章 Cube Planner及仪表盘

6.1 Cube Planner

6.1.1 为什么要引入Cube Planner

6.1.2 Cube Planner算法介绍

6.1.3 使用Cube Planner

6.2 System Cube

6.2.1 开启System Cube

6.2.2 构建和更新System Cube

6.3 仪表盘

6.4 小结

第7章 流式构建

7.1 为什么要进行流式构建

7.2 准备流式数据

7.2.1 数据格式

7.2.2 消息队列

7.2.3 创建Schema

7.3 设计流式Cube

7.3.1 创建Model

7.3.2 创建Cube

7.4 流式构建原理

7.5 触发流式构建

7.5.1 单次触发构建

7.5.2 自动化多次触发

7.5.3 初始化构建起点

7.5.4 其他操作

7.5.5 出错处理

7.6 小结

第8章 使用Spark

8.1 为什么要引入Apache Spark

8.2 Spark构建原理

8.3 使用Spark构建Cube

8.3.1 配置Spark引擎

8.3.2 开启Spark动态资源分配

8.3.3 出错处理和问题排查

8.4 使用Spark SQL创建中间平表

8.5 小结

第9章 应用案例分析

9.1 小米集团

9.1.1 背景

9.1.2 利用Apache Kylin构建定制化OLAP解决方案

9.1.3 Kylin在小米的三类主要应用场景

9.2 美团点评

9.2.1 美团点评的数据场景特点

9.2.2 接入Apache Kylin的解决方案

9.2.3 Kylin的优势

9.3 携程

9.3.1 背景

9.3.2 选择Kylin的原因

9.3.3 Kylin在携程的应用情况

9.4 4399小游戏

9.4.1 背景

9.4.2 Kylin部署架构

9.4.3 Apache Kylin在4399的价值

9.5 国内某Top 3保险公司

9.5.1 背景

9.5.2 主要痛点

9.5.3 Kylin带来的改变

9.6 某全球顶级银行卡组织

9.6.1 背景

9.6.2 Kylin的价值体现

第10章 扩展Apache Kylin

10.1 可扩展式架构

10.1.1 可扩展架构工作原理

10.1.2 三大主要接口

10.2 计算引擎扩展

10.2.1 EngineFactory

10.2.2 MRBatchCubingEngine2

10.2.3 BatchCubingJobBuilder2

10.2.4 IMRInput

10.2.5 IMROutput2

10.2.6 计算引擎扩展小结

10.3 数据源扩展

10.3.1 Hive数据源

10.3.2 JDBC数据源

10.4 存储扩展

10.5 聚合类型扩展

10.5.1 聚合的JSON定义

10.5.2 聚合类型工厂

10.5.3 聚合类型的实现(MeasureType)

10.5.4 聚合类型扩展小结

10.6 维度编码扩展

10.6.1 维度编码的JSON定义

10.6.2 维度编码工厂(DimensionEncodingFactory)

10.6.3 维度编码实现(DimensionEncoding)

10.6.4 维度编码扩展小结

10.7 小结

第11章 Apache Kylin的安全与认证

11.1 身份验证

11.1.1 自定义验证

11.1.2 LDAP验证

11.1.3 单点登录

11.2 授权

11.2.1 新的访问权限控制

11.2.2 统一的项目级别访问控制

11.2.3 管理数据访问权限

11.3 小结

第12章 运维管理

12.1 监控和诊断

12.1.1 日志文件

12.1.2 任务报警

12.1.3 诊断工具

12.2 日常维护

12.2.1 基本运维

12.2.2 元数据备份

12.2.3 元数据恢复

12.2.4 系统升级

12.2.5 迁移

12.2.6 垃圾清理

12.3 获得社区帮助

12.3.1 邮件列表

12.3.2 JIRA

12.4 小结

第13章 在云上使用Kylin

13.1 云计算世界

13.2 为何要在云上使用Kylin

13.3 在亚马逊AWS上使用Kylin

13.3.1 准备AWS服务资源

13.3.2 AWS账户信息

13.3.3 创建Amazon EMR集群

13.3.4 安装Apache Kylin

13.4 在微软Azure使用Kylin

13.4.1 准备Azure服务资源

13.4.2 准备Azure账户信息

13.4.3 创建HD Insight集群

13.4.4 安装Apache Kylin

13.5 在阿里云使用Kylin

13.5.1 准备阿里云服务资源

13.5.2 准备阿里云账户信息

13.5.3 创建E-MapReduce集群

13.5.4 安装Apache Kylin

13.6 认识Kyligence Cloud

13.7 小结

第14章 参与开源

14.1 Apache Kylin开源历程

14.2 为什么要参与开源

14.3 Apache开源社区简介

14.3.1 简介

14.3.2 组织构成与运作模式

14.3.3 项目角色

14.3.4 孵化项目及顶级项目

14.4 如何贡献到开源社区

14.4.1 什么是贡献

14.4.2 如何贡献

14.5 礼仪与文化

14.6 如何参与Apache Kylin

14.6.1 如何成为Apache Contributor

14.6.2 如何成为Apache Committer

14.7 小结

第15章 Kylin的未来

15.1 全面拥抱Spark技术

15.2 实时流分析

15.3 更快的存储和查询

15.4 前端展现及与BI工具的整合

15.5 高级OLAP函数

15.6 展望

附录A 使用VM本地部署Kylin

附录B Azure HDInsight边缘节点模板部署代码

附录C 集群部署Apache Kylin

附录D 使用MySQL作为元数据存储

附录E 配置Apache Kylin

附录F 多级配置重写

附录G 常见问题与解决方案

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部