万本电子书0元读

万本电子书0元读

顶部广告

Hadoop大数据开发基础电子书

大数据专家张良均领衔畅销书作者团队,长江学者特聘教授、国家杰出青年基金获得者、IEEE Fellow、华南理工大学计算机与工程学院院长张军倾力。 本书采用了以任务为导向的教学模式,按照解决实际任务的工作流程路线,逐步展介绍相关的理论知识,推导生成可行的解决方案,落实在任务实现环节。 全书大部分章节紧扣任务需求展,不堆积知识,着重于解决问题时思路的启发与方案的实施。通过从任务需求到实现这一完整工作流程的体验,帮助读者真正理解与消化Hadoop大数据技术。

售       价:¥

3人正在读 | 0人评论 9.8

作       者:余明辉 张良均

出  版  社:人民邮电出版社

出版时间:2018-02-01

字       数:15.9万

所属分类: 教育 > 大中专教材 > 研究生/本科/专科教材

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
本书以任务为导向,较为全面地介绍了Hadoop大数据技术的相关知识。全书共6章,具体内容包括Hadoop介绍、Hadoop集群的搭建及配置、Hadoop基础操作、MapReduce编程门、MapReduce阶编程、项目案例:电影网站用户性别预测。本书的2~5章包含了实训与课后练习,通过练习和操作实践,帮助读者巩固所学的内容。 本书可以作为高校大数据技术类专业的教材,也可作为大数据技术爱好者的自学用书。
目录展开

内容提要

序 PREFACE

前言 FOREWORD

第1章 Hadoop介绍

1.1 Hadoop概述

1.1.1 Hadoop简介

1.1.2 Hadoop的发展历史

1.1.3 Hadoop的特点

1.2 Hadoop核心

1.2.1 分布式文件系统——HDFS

1.2.2 分布式计算框架——MapReduce

1.2.3 集群资源管理器——YARN

1.3 Hadoop生态系统

1.4 Hadoop应用场景

小结

第2章 Hadoop集群的搭建及配置

任务2.1 安装及配置虚拟机

2.1.1 创建Linux虚拟机

2.1.2 设置固定IP

2.1.3 远程连接虚拟机

2.1.4 虚拟机在线安装软件

2.1.5 任务实现

任务2.2 安装Java

2.2.1 在Windows下安装Java

2.2.2 在Linux下安装Java

2.2.3 任务实现

任务2.3 搭建Hadoop完全分布式集群

2.3.1 修改配置文件

2.3.2 克隆虚拟机

2.3.3 配置SSH免密码登录

2.3.4 配置时间同步服务

2.3.5 启动关闭集群

2.3.6 监控集群

小结

实训

实训1 为Hadoop集群增加一个节点

实训2 编写Shell脚本同步集群时间

课后练习

第3章 Hadoop基础操作

任务3.1 查看Hadoop集群的基本信息

3.1.1 查询集群的存储系统信息

3.1.2 查询集群的计算资源信息

任务3.2 上传文件到HDFS目录

3.2.1 了解HDFS文件系统

3.2.2 掌握HDFS的基本操作

3.2.3 任务实现

任务3.3 运行首个MapReduce任务

3.3.1 了解Hadoop官方的示例程序包

3.3.2 提交MapReduce任务给集群运行

任务3.4 管理多个MapReduce任务

3.4.1 查询MapReduce任务

3.4.2 中断MapReduce任务

小结

实训

实训1 统计文件中所有单词的平均长度

实训2 查询与中断MapReduce任务

课后练习

第4章 MapReduce编程入门

任务4.1 使用Eclipse创建MapReduce工程

4.1.1 下载与安装Eclipse

4.1.2 配置MapReduce环境

4.1.3 新建MapReduce工程

任务4.2 通过源码初识MapReduce编程

4.2.1 通俗理解MapReduce原理

4.2.2 了解MR实现词频统计的执行流程

4.2.3 读懂官方提供的WordCount源码

任务4.3 编程实现按日期统计访问次数

4.3.1 分析思路与处理逻辑

4.3.2 编写核心模块代码

4.3.3 任务实现

任务4.4 编程实现按访问次数排序

4.4.1 分析思路与处理逻辑

4.4.2 编写核心模块代码

4.4.3 任务实现

小结

实训

实训1 获取成绩表的最高分记录

实训2 对两个文件中的数据进行合并与去重

课后练习

第5章 MapReduce进阶编程

任务5.1 筛选日志文件并生成序列化文件

5.1.1 MapReduce输入格式

5.1.2 MapReduce输出格式

5.1.3 任务实现

任务5.2 Hadoop Java API读取序列化日志文件

5.2.1 FileSystem API管理文件夹

5.2.2 FileSystem API操作文件

5.2.3 FileSystem API读写数据

5.2.4 任务实现

任务5.3 优化日志文件统计程序

5.3.1 自定义键值类型

5.3.2 初步探索Combiner

5.3.3 浅析Partitioner

5.3.4 自定义计数器

5.3.5 任务实现

任务5.4 Eclipse提交日志文件统计程序

5.4.1 传递参数

5.4.2 Hadoop辅助类ToolRunner

5.4.3 Eclipse自动打包并提交任务

小结

实训

实训1 统计全球每年的最高气温和最低气温

实训2 筛选气温在15~25℃之间的数据

课后练习

第6章 项目案例:电影网站用户性别预测

任务6.1 认识KNN算法

6.1.1 KNN算法简介

6.1.2 KNN算法原理及流程

任务6.2 数据预处理

6.2.1 获取数据

6.2.2 数据变换

6.2.3 数据清洗

6.2.4 划分数据集

任务6.3 实现用户性别分类

6.3.1 实现思路

6.3.2 代码实现

任务6.4 评价分类结果的准确性

6.4.1 评价思路

6.4.2 实现分类评价

6.4.3 寻找最优K值

小结

参考文献

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部