万本电子书0元读

万本电子书0元读

顶部广告

Hadoop 3大数据技术快速入门电子书

本书基于Hadoop 3.3.0,覆盖Hadoop、HBase、Hive的核心概念、实践应用、程序发等方面的内容,帮你快速解决大数据是什么和怎么用的问题。本书适合Java大数据发人员快速掌握Hadoop技术。

售       价:¥

纸质售价:¥44.50购买纸书

120人正在读 | 0人评论 6.2

作       者:牛搞

出  版  社:清华大学出版社

出版时间:2021-09-01

字       数:14.7万

所属分类: 科技 > 计算机/网络 > 程序设计

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
本书基于Hadoop 3.3.0,覆盖Hadoop、HBase、Hive的核心概念、实践应用、程序发等方面的内容,帮你快速解决大数据是什么和怎么用的问题,书中还利用Docker来部署Hadoop分布式集群,让你同时学会4种流行的技术。 本书共9章,主要内容包括Hadoop概述、HDFS原理详解、Yarn原理详解、Hadoop系统配置、高可用Hadoop配置、HDFS编程、MapReduce编程、Hive实战、HBase实战。 本书从案例手、通俗易懂,能使读者在短时间内迅速掌握Hadoop大数据技术。 本书既适合Hadoop大数据初学者、大数据应用发人员、大数据处理人员使用,也适合高等院校和培训机构大数据相关专业的师生教学参考。<br/>【推荐语】<br/>本书基于Hadoop 3.3.0,覆盖Hadoop、HBase、Hive的核心概念、实践应用、程序发等方面的内容,帮你快速解决大数据是什么和怎么用的问题, 书中还利用Docker来部署Hadoop分布式集群,让你同时学会4种流行的技术。 本书适合Java大数据发人员快速掌握Hadoop技术。<br/>【作者】<br/>牛搞,软件发从业15年编程实战经验,流媒体技术专家,高性能服务器专家。CSDN知名博主。现为IOS、Adroid、C 高级培训讲师。著有图书《Android 9编程通俗演义》《Android 10 Kotlin编程通俗演义》。<br/>
目录展开

封面页

书名页

版权页

内容简介

前言

目录

第1章 概述

1.1 什么是大数据

1.1.1 大数据系统的定位

1.1.2 与传统分布式系统的区别

1.1.3 成功的大数据系统项目

1.2 Hadoop的原理

1.2.1 存储与资源调度

1.2.2 计算框架原理

1.3 总结

第2章 HDFS原理详解

2.1 主从节点架构

2.2 数据冗余

2.3 fsimage与edits

2.4 SecondaryNameNode

2.5 HA

2.6 自动故障转移

2.7 ZooKeeper

2.8 防脑裂

2.9 联邦

2.10 总结

第3章 Yarn原理详解

3.1 概述

3.2 作业调度策略

3.2.1 容量调度器

3.2.2 公平调度器

3.2.3 队列其他事项

3.3 Yarn与MapReduce程序

第4章 配置Hadoop系统

4.1 Docker简介

4.2 安装Docker

4.2.1 Windows、macOS做宿主系统

4.2.2 Linux做宿主系统

4.2.3 测试Docker容器

4.3 创建Hadoop容器

4.4 配置独立模式Hadoop

4.5 配置伪分布Hadoop

4.5.1 安装并配置SSH

4.5.2 安装其他命令行程序

4.5.3 编辑core-site.xml

4.5.4 编辑hdfs-site.xml

4.5.5 编辑mapred-site.xml

4.5.6 编辑yarn-site.xml

4.5.7 编辑hadoop-env.sh

4.5.8 运行伪分布式Hadoop

4.5.9 状态监控

4.6 基于Dockerfile的伪分布Hadoop

4.6.1 Dockerfile

4.6.2 构建Hadoop镜像

4.6.3 运行容器

4.6.4 配置Hadoop

4.7 配置全分布式Hadoop

4.7.1 组件部署架构

4.7.2 配置思路

4.7.3 修改配置文件

4.7.4 创建集群

4.7.5 启动集群

4.8 Windows下运行Hadoop

4.8.1 配置独立模式Hadoop

4.8.2 配置伪分布式Hadoop

4.9 Yarn调度配置

4.9.1 容量调度器

4.9.2 公平调度器

第5章 配置高可用Hadoop

5.1 HDFS高可用

5.1.1 组件部署架构

5.1.2 修改配置文件

5.1.3 创建镜像

5.1.4 创建HA HDFS集群

5.1.5 运行HA HDFS

5.1.6 测试HA HDFS

5.1.7 NameNode自动故障转移

5.2 Yarn高可用

第6章 HDFS编程

6.1 安装开发工具

6.1.1 安装Git

6.1.2 安装Maven

6.1.3 安装VSCode

6.1.4 安装VSCode插件

6.2 Native编程

6.2.1 创建HDFS客户端项目

6.2.2 示例1:查看目录状态

6.2.3 添加依赖库

6.2.4 运行程序

6.2.5 示例2:创建目录和文件

6.2.6 示例3:读取文件内容

6.2.7 示例4:上传和下载文件

6.3 WebHDFS与HttpFS

6.3.1 WebHDFS

6.3.2 VSCode插件RestClient

6.3.3 HttpFS

第7章 MapReduce编程

7.1 准备测试环境与创建项目

7.2 添加MapReduce逻辑

7.2.1 添加Map类

7.2.2 添加Reduce类

7.3 创建Job

7.4 添加依赖库

7.5 运行程序

7.6 查看运行日志

7.7 在Hadoop中运行程序

7.8 Combiner

7.9 Mapper与Reducer数量

7.10 实现SQL语句

7.10.1 简单查询

7.10.2 排序

7.10.3 复杂排序

7.10.4 分区

7.10.5 组合

7.10.6 总结

7.11 实现SQL JOIN

7.11.1 INNER JOIN

7.11.2 MapReduce实现JOIN

7.11.3 Mapper JOIN

7.11.4 DistributedCache

7.12 Counter

7.13 其他组件

7.14 升级版的WordCount

7.15 分布式k-means

7.15.1 Mapper类

7.15.2 Reducer类

7.15.3 执行任务的方法

7.15.4 辅助类

7.15.5 运行

7.15.6 MapReduce深入剖析

第8章 Hive

8.1 Hive的设计架构

8.2 运行架构

8.3 安装配置Hive3

8.3.1 安装依赖软件

8.3.2 创建Hive镜像Dockerfile

8.3.3 创建docker-compose.yml

8.3.4 Hadoop配置调整

8.3.5 为Hive准备数据库

8.4 运行Hive3

8.5 其他运行方式

8.5.1 MetaStore单独运行

8.5.2 嵌入Meta数据库

8.5.3 HiveServer2与beeline合体

8.6 Hive数据管理

8.6.1 基本操作

8.6.2 Hive表

8.6.3 数据倾斜

8.7 Hive查询优化

8.8 索引

8.9 HCatalog

8.10 Hive编程

8.10.1 JDBC操作Hive

8.10.2 自定义函数

8.11 总结

第9章 HBase

9.1 什么是HBase

9.2 HBase架构

9.3 安装与配置

9.3.1 独立模式运行

9.3.2 伪分布模式

9.3.3 全分布模式

9.4 基本数据操作

9.4.1 表管理

9.4.2 添加数据

9.4.3 修改数据

9.4.4 获取数据

9.4.5 删除数据

9.5 HBase设计原理

9.5.1 Region

9.5.2 定位数据

9.5.3 数据存储模型

9.5.4 快速写的秘密

9.5.5 快速读的秘密

9.5.6 合并StoreFile

9.5.7 Region拆分与合并

9.5.8 故障恢复

9.5.9 总结

9.6 HBase应用编程

9.6.1 Java API访问HBase

9.6.2 使用扫描过滤器

9.6.3 MapReduce访问HBase表

9.7 总结

后记

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部