当当云阅读 > 科技 > 计算机/网络 > 计算机理论与教程 > Hadoop大数据挖掘从入门到进阶实战

Hadoop大数据挖掘从入门到进阶实战电子书

博客园资深博主、极客学院特邀讲师分享多年的Hadoop使用经验全面涵盖了Hadoop从基础部署到集群管理，再到底层设计等重内容深度剖析Kafka源监控工具Kafka Eagle的设计和架构思想提供了近200分钟配套教学视频，手把手带领读者高效学习详解51个实例和10个综合案例，带领读者通过实际动手提高编程水平书中的所有实例和案例均来源于作者多年的工作经验积累和技术分享给出了大量的“避坑”技巧，让读者在实际发中少走弯路

售价：¥

纸质售价：¥74.20购买纸书

9人正在读 | 0人评论

6.4

作者：邓杰

出版社：机械工业出版社

出版时间：2018-06-01

字数：35.0万

所属分类：科技 > 计算机/网络 > 计算机理论与教程

温馨提示：数字商品不支持退换货，不提供源文件，不支持导出打印

为你推荐

读书简介
目录
累计评论(4条)

读书简介
目录
累计评论(4条)

本书采用“理论实战”的形式编写，全面介绍了Hadoop大数据挖掘的相关知识。本书秉承循序渐、易于理解、学以致用和便于查询的讲授理念，讲解时结合了大量实例和作者多年积累的一线发经验。本书作者拥有丰富的视频制作与在线教学经验，曾经与极客学院合作设过在线视频教学课程。为了帮助读者高效、直观地学习本书内容，作者特意为本书录制了配套教学视频，这些教学视频和本书配套源代码文件读者都可以免费获取。本书共分为13章，涵盖的主要内容有：集群及发环境搭建；快速构建一个Hadoop项目并线上运行；Hadoop套件实战；Hive编程——使用SQL提交MapReduce任务到Hadoop集群；游戏玩家的用户行为分析——特征提取；Hadoop平台管理与维护；Hadoop异常处理解决方案；初识Hadoop核心源码；Hadoop通信机制和内部协议；Hadoop分布式文件系统剖析；ELK实战案例——游戏应用实时日志分析平台；Kafka实战案例——实时处理游戏用户数据；Hadoop拓展——Kafka剖析。本书通俗易懂，案例丰富，实用性强，不但适合初学者系统学习Hadoop的各种基础语法和发技巧，而且也适合有发经验的程序员阶提高。另外，本书还适合社会培训机构和相关院校作为教材或者教学参考书。 【推荐语】 博客园资深博主、极客学院特邀讲师分享多年的Hadoop使用经验全面涵盖了Hadoop从基础部署到集群管理，再到底层设计等重内容深度剖析Kafka源监控工具Kafka Eagle的设计和架构思想提供了近200分钟配套教学视频，手把手带领读者高效学习详解51个实例和10个综合案例，带领读者通过实际动手提高编程水平书中的所有实例和案例均来源于作者多年的工作经验积累和技术分享给出了大量的“避坑”技巧，让读者在实际发中少走弯路用浅显易懂的语言行讲解，读者阅读时不会有云山雾罩的感觉本书内容速览：集群及发环境搭建快速构建一个Hadoop项目并线上运行 Hadoop套件实战 Hive编程——使用SQL提交MapReduce任务到Hadoop集群游戏玩家的用户行为分析——特征提取 Hadoop平台管理与维护 Hadoop异常处理解决方案初识Hadoop核心源码 Hadoop通信机制和内部协议 Hadoop分布式文件系统剖析 ELK实战案例——游戏应用实时日志分析平台 Kafka实战案例——实时处理游戏用户数据 Hadoop拓展——Kafka剖析本书10大实战案例快速构建一个Hadoop项目并线上运行 Sqoop数据传输工具实战案例 Flume日志收集工具实战案例 HBase分布式数据库实战案例 Zeppelin数据集分析工具实战案例 Drill低延时SQL查询引擎实战案例 Spark实时流数据计算实战案例特征提取实战案例：游戏玩家的用户行为分析 ELK实战案例：游戏应用实时日志分析平台 Kafka实战案例：实时处理游戏用户数据 【作者】 邓杰博客园资深博主，资深大数据全栈发者，极客学院大数据讲师，源爱好者。善于发大数据监控系统辅助日常工作，提升工作效率。主导发了大数据自助类平台系统。发并在GitHub上发布了Kafka系统监控管理工具Kafka Eagle，深受业内发者的赞誉。作为极客学院特邀讲师，制作了多个技术视频，讲授Hadoop和Kafka等相关技术课程，广受学员好评。

目录展开

前言

第1章集群及开发环境搭建

1.1 环境准备

1.1.1 基础软件下载

1.1.2 准备Linux操作系统

1.2 安装Hadoop

1.2.1 基础环境配置

1.2.2 Zookeeper部署

1.2.3 Hadoop部署

1.2.4 效果验证

1.2.5 集群架构详解

1.3 Hadoop版Hello World

1.3.1 Hadoop Shell介绍

1.3.2 WordCount初体验

1.4 开发环境

1.4.1 搭建本地开发环境

1.4.2 运行及调试预览

1.5 小结

第2章实战：快速构建一个Hadoop项目并线上运行

2.1 构建一个简单的项目工程

2.1.1 构建Java Project结构工程

2.1.2 构建Maven结构工程

2.2 操作分布式文件系统（HDFS）

2.2.1 基本的应用接口操作

2.2.2 在高可用平台上的使用方法

2.3 利用IDE提交MapReduce作业

2.3.1 在单点上的操作

2.3.2 在高可用平台上的操作

2.4 编译应用程序并打包

2.4.1 编译Java Project工程并打包

2.4.2 编译Maven工程并打包

2.5 部署与调度

2.5.1 部署应用

2.5.2 调度任务

2.6 小结

第3章Hadoop套件实战

3.1 Sqoop——数据传输工具

3.1.1 背景概述

3.1.2 安装及基本使用

3.1.3 实战：在关系型数据库与分布式文件系统之间传输数据

3.2 Flume——日志收集工具

3.2.1 背景概述

3.2.2 安装与基本使用

3.2.3 实战：收集系统日志并上传到分布式文件系统（HDFS）上

3.3 HBase——分布式数据库

3.3.1 背景概述

3.3.2 存储架构介绍

3.3.3 安装与基本使用

3.3.4 实战：对HBase业务表进行增、删、改、查操作

3.4 Zeppelin——数据集分析工具

3.4.1 背景概述

3.4.2 安装与基本使用

3.4.3 实战：使用解释器操作不同的数据处理引擎

3.5 Drill——低延时SQL查询引擎

3.5.1 背景概述

3.5.2 安装与基本使用

3.5.3 实战：对分布式文件系统（HDFS）使用SQL进行查询

3.5.4 实战：使用SQL查询HBase数据库

3.5.5 实战：对数据仓库（Hive）使用类实时统计、查询操作

3.6 Spark——实时流数据计算

3.6.1 背景概述

3.6.2 安装部署及使用

3.6.3 实战：对接Kafka消息数据，消费、计算及落地

3.7 小结

第4章Hive编程——使用SQL提交MapReduce任务到Hadoop集群

4.1 环境准备与Hive初识

4.1.1 背景介绍

4.1.2 基础环境准备

4.1.3 Hive结构初识

4.1.4 Hive与关系型数据库（RDBMS）

4.2 安装与配置Hive

4.2.1 Hive集群基础架构

4.2.2 利用HAProxy实现Hive Server负载均衡

4.2.3 安装分布式Hive集群

4.3 可编程方式

4.3.1 数据类型

4.3.2 存储格式

4.3.3 基础命令

4.3.4 Java编程语言操作数据仓库（Hive）

4.3.5 实践Hive Streaming

4.4 运维和监控

4.4.1 基础命令

4.4.2 监控工具Hive Cube

4.5 小结

第5章游戏玩家的用户行为分析——特征提取

5.1 项目应用概述

5.1.1 场景介绍

5.1.2 平台架构与数据采集

5.1.3 准备系统环境和软件

5.2 分析与设计

5.2.1 整体分析

5.2.2 指标与数据源分析

5.2.3 整体设计

5.3 技术选型

5.3.1 套件选取简述

5.3.2 套件使用简述

5.4 编码实践

5.4.1 实现代码

5.4.2 统计结果处理

5.4.3 应用调度

5.5 小结

第6章Hadoop平台管理与维护

6.1 Hadoop分布式文件系统（HDFS）

6.1.1 HDFS特性

6.1.2 基础命令详解

6.1.3 解读NameNode Standby

6.2 Hadoop平台监控

6.2.1 Hadoop日志

6.2.2 常用分布式监控工具

6.3 平台维护

6.3.1 安全模式

6.3.2 节点管理

6.3.3 HDFS快照

6.4 小结

第7章Hadoop异常处理解决方案

7.1 定位异常

7.1.1 跟踪日志

7.1.2 分析异常信息

7.1.3 阅读开发业务代码

7.2 解决问题的方式

7.2.1 搜索关键字

7.2.2 查看Hadoop JIRA

7.2.3 阅读相关源码

7.3 实战案例分析

7.3.1 案例分析1：启动HBase失败

7.3.2 案例分析2：HBase表查询失败

7.3.3 案例分析3：Spark的临时数据不自动清理

7.4 小结

第8章初识Hadoop核心源码

8.1 基础准备与源码编译

8.1.1 准备环境

8.1.2 加载源码

8.1.3 编译源码

8.2 初识Hadoop 2

8.2.1 Hadoop的起源

8.2.2 Hadoop 2源码结构图

8.2.3 Hadoop模块包

8.3 MapReduce框架剖析

8.3.1 第一代MapReduce框架

8.3.2 第二代MapReduce框架

8.3.3 两代MapReduce框架的区别

8.3.4 第二代MapReduce框架的重构思路

8.4 序列化

8.4.1 序列化的由来

8.4.2 Hadoop序列化

8.4.3 Writable实现类

8.5 小结

第9章Hadoop通信机制和内部协议

9.1 Hadoop RPC概述

9.1.1 通信模型

9.1.2 Hadoop RPC特点

9.2 Hadoop RPC的分析与使用

9.2.1 基础结构

9.2.2 使用示例

9.2.3 其他开源RPC框架

9.3 通信协议

9.3.1 MapReduce通信协议

9.3.2 RPC协议的实现

9.4 小结

第10章Hadoop分布式文件系统剖析

10.1 HDFS介绍

10.1.1 HDFS概述

10.1.2 其他分布式文件系统

10.2 HDFS架构剖析

10.2.1 设计特点

10.2.2 命令空间和节点

10.2.3 数据备份剖析

10.3 数据迁移实战

10.3.1 HDFS跨集群迁移

10.3.2 HBase集群跨集群数据迁移

10.4 小结

第11章ELK实战案例——游戏应用实时日志分析平台

11.1 Logstash——实时日志采集、分析和传输

11.1.1 Logstash介绍

11.1.2 Logstash安装

11.1.3 实战操作

11.2 Elasticsearch——分布式存储及搜索引擎

11.2.1 应用场景

11.2.2 基本概念

11.2.3 集群部署

11.2.4 实战操作

11.3 Kibana——可视化管理系统

11.3.1 Kibana特性

11.3.2 Kibana安装

11.3.3 实战操作

11.4 实时日志分析平台案例

11.4.1 案例概述

11.4.2 平台体系架构与剖析

11.4.3 实战操作

11.5 小结

第12章Kafka实战案例——实时处理游戏用户数据

12.1 应用概述

12.1.1 Kafka回顾

12.1.2 项目简述

12.1.3 Kafka工程准备

12.2 项目的分析与设计

12.2.1 项目背景和价值概述

12.2.2 生产模块

12.2.3 消费模块

12.2.4 体系架构

12.3 项目的编码实践

12.3.1 生产模块

12.3.2 消费模块

12.3.3 数据持久化

12.3.4 应用调度

12.4 小结

第13章Hadoop拓展——Kafka剖析

13.1 Kafka开发与维护

13.1.1 接口

13.1.2 新旧API编写

13.1.3 Kafka常用命令

13.2 运维监控

13.2.1 监控指标

13.2.2 Kafka开源监控工具——Kafka Eagle

13.3 Kafka源码分析

13.3.1 源码工程环境构建

13.3.2 分布式选举算法剖析

13.3.3 Kafka Offset解读

13.3.4 存储机制和副本

13.4 小结

累计评论(4条) 4个书友正在讨论这本书 发表评论

发表评论

发表评论，分享你的想法吧！

发表评论

买过这本书的人还买过

读了这本书的人还在读

支持设备

ChatGPT写作超简单￥44.67

安晓辉著

￥44.67

驾驭ChatGPT:学会使用提示词￥47.60

Shom;Wenyuan;等

￥47.60

步步图解电子电路识图技能￥29.00

韩雪涛

￥29.00

计算机是如何工作的:人人都能懂的计算机软硬件工作原理￥65.00

(美)马修·贾斯蒂斯(Matthew Justice)

￥65.00

给安全工程师讲透Linux ￥47.00

网络掌控者(OccupyTheWeb)

￥47.00

ChatGPT速学通:文案写作+PPT制作+数据分析+知识学习与变现￥51.07

刘道军著

￥51.07

学会提问:AI大模型时代与ChatGPT对话的关键技能￥41.30

苏江

￥41.30

更多同类图书 >