当当云阅读 > 科技 > 计算机/网络 > 软件系统 > PySpark大数据分析与应用

PySpark大数据分析与应用电子书

1.理论叙述由浅深，循序渐，表达通俗易懂。本书的知识章节从基本概念手，介绍相关的基础理论，并结合介绍的知识行操作实践，再通过应用实例介绍如何运用具体方法解决实际问题。 2.强化基础，突出知识的应用性。结合高校教学特和学生的情况，突出PySpark大数据分析的重内容，强调PySpark在实际问题中的应用性，充分体现了理论知识与应用的紧密结合。 3.从实践出发，重突出可操作性。本书从构建PySpark的发环境手，详细介绍了单机模式的PySpark发环境搭建（基于Windows系统搭建，搭建过程简单，易于操作）和分布式模式的PySpark发环境搭建（基于Linux系统搭建，贴近实际应用场景，处理高效），帮助读者构建一个可操作的实践环境，实践本书各章节的内容。且本书大部分章节附有实训和课后习题，便于读者行上机实验，巩固所学知识，真正理解并应用所学知识。

售价：¥

纸质售价：¥52.40购买纸书

8人正在读 | 0人评论

6.3

作者：戴刚,张良均主编

出版社：人民邮电出版社有限公司

出版时间：2024-04-01

字数：14.7万

所属分类：科技 > 计算机/网络 > 软件系统

温馨提示：数字商品不支持退换货，不提供源文件，不支持导出打印

为你推荐

读书简介
目录
累计评论(0条)

读书简介
目录
累计评论(0条)

本书以Python作为发语言，系统介绍PySpark发环境搭建流程及基于PySpark行大数据分析的相关知识。本书条理清晰、重突出，理论叙述循序渐、由浅深。本书共7章，第1?5章包括PySpark 大数据分析概述、PySpark安装配置、基于PySpark的DataFrame操作、基于PySpark的流式数据处理、基于PySpark的机器学习库，内容介绍注重理论与实践相结合，通过典型示例强化PySpark在大数据分析中的实际应用；第6、7章通过基于PySpark的网络招聘信息的职业类型划分和基于PySpark的信用贷款风险分析两个完整的案例实战，结合前5章的PySpark编程知识，实现完整的大数据分析过程。本书大部分章包含实训和课后习题，读者通过练习和操作实践，能够巩固所学的内容。本书可作为高校数据科学或大数据相关专业的教材，也可作为机器学习爱好者的自学用书。 【推荐语】 1.理论叙述由浅深，循序渐，表达通俗易懂。本书的知识章节从基本概念手，介绍相关的基础理论，并结合介绍的知识行操作实践，再通过应用实例介绍如何运用具体方法解决实际问题。 2.强化基础，突出知识的应用性。结合高校教学特和学生的情况，突出PySpark大数据分析的重内容，强调PySpark在实际问题中的应用性，充分体现了理论知识与应用的紧密结合。 3.从实践出发，重突出可操作性。本书从构建PySpark的发环境手，详细介绍了单机模式的PySpark发环境搭建（基于Windows系统搭建，搭建过程简单，易于操作）和分布式模式的PySpark发环境搭建（基于Linux系统搭建，贴近实际应用场景，处理高效），帮助读者构建一个可操作的实践环境，实践本书各章节的内容。且本书大部分章节附有实训和课后习题，便于读者行上机实验，巩固所学知识，真正理解并应用所学知识。 4.通过典型的案例完整展示PySpark数据分析的过程，强化知识的实际应用。本书最后介绍了两个案例，以应用为导向，从需求分析手，再设计解决方案，最终运用所需知识实现基于PySpark的数据分析过程。 5.体现思政育人。本书不仅注重培养学生分析处理数据的能力，运用数据分析理论与方法解决实际问题的实践能力；同时注重课程内容与思政教育的有机融合，潜移默化中引领学生树立和践行社会主义核心价值观，建立正确的三观，培养拥有正确政治方向的四有青年。 【作者】 戴刚，重庆大学计算机科学与技术博士，美国匹兹堡大学访问学者，重庆交通大学经济与管理学院副教授，硕士生导师。主持1项产学研合作项目，主研国家自然科学基金2项，国家科技支持计划1项目，中国移动（重庆分公司）科技公关项目1项，省部级科研项目2项，在国际期刊、国际会议及国内权威学术期刊发辫学术论文7篇。熟悉Java、Python、大数据及相关软件架构，具有丰富的软件发经验。从事教育教学工作十多年，有扎实的专业素养和丰富的教学经验。

目录展开

内容提要

大数据技术精品系列教材专家委员会

前言

第1章 PySpark大数据分析概述

1.1 大数据分析概述

1.1.1 大数据的概念

1.1.2 大数据分析的概念

1.1.3 大数据分析的流程

1.1.4 大数据分析的应用场景

1.1.5 大数据技术体系

1.2 Spark大数据技术框架

1.2.1 Spark简介

1.2.2 Spark特点

1.2.3 Spark运行架构与流程

1.2.4 Spark RDD

1.2.5 Spark生态圈

1.3 PySpark大数据分析

1.3.1 PySpark简介

1.3.2 PySpark子模块

小结

课后习题

第2章 PySpark安装配置

2.1 搭建单机模式的PySpark开发环境

2.1.1 安装JDK

2.1.2 安装Anaconda

2.1.3 安装Hadoop

2.1.4 安装MySQL

2.1.5 安装Hive

2.1.6 配置PySpark模块

2.1.7 运行Jupyter Notebook

2.2 搭建分布式模式的PySpark开发环境

2.2.1 安装配置虚拟机

2.2.2 安装Java

2.2.3 搭建Hadoop分布式集群

2.2.4 安装MySQL数据库

2.2.5 安装Hive数据仓库工具

2.2.6 搭建Spark完全分布式集群

2.2.7 安装PyCharm

2.2.8 安装Python解释器及PySpark模块

2.3 Python函数式编程

2.3.1 Python常用数据结构

2.3.2 Python函数式编程基础

小结

课后习题

第3章基于PySpark的DataFrame操作

3.1 Spark SQL概述

3.1.1 Spark SQL起源与发展历程

3.1.2 Spark SQL主要功能

3.1.3 Spark SQL数据核心抽象DataFrame

3.2 pyspark.sql模块

3.2.1 pyspark.sql模块简介

3.2.2 pyspark.sql模块核心类

3.3 DataFrame基础操作

3.3.1 创建DataFrame对象

3.3.2 DataFrame操作

3.3.3 DataFrame输出操作

小结

实训

实训1 网站搜索热词统计分析

实训2 大数据岗位招聘信息统计分析

课后习题

第4章基于PySpark的流式数据处理

4.1 Spark Streaming概述

4.1.1 流计算简介

4.1.2 Spark Streaming基本概念

4.1.3 Spark Streaming工作原理

4.1.4 Spark Streaming运行机制

4.2 pyspark.streaming模块

4.2.1 pyspark.streaming模块简介

4.2.2 pyspark.streaming模块核心类

4.2.3 DStream基础操作

4.3 Structured Streaming结构化流处理

4.3.1 Structured Streaming概述

4.3.2 Structured Streaming编程模型

4.3.3 Structured Streaming基础操作

4.3.4 Structured Streaming编程步骤

小结

实训

实训1 使用Spark Streaming实现菜品价格实时计算

实训2 使用Spark Streaming实时判别车辆所属地

课后习题

第5章基于PySpark的机器学习库

5.1 MLlib算法

5.1.1 机器学习

5.1.2 MLlib

5.1.3 pyspark.ml模块

5.2 使用pyspark.ml模块的转换器处理和转换数据

5.2.1 数据加载及数据集划分

5.2.2 数据降维

5.2.3 数据标准化

5.2.4 数据类型转换

5.3 pyspark.ml模块的评估器和模型评估

5.3.1 使用PySpark构建并评估分类模型

5.3.2 使用PySpark构建并评估回归模型

5.3.3 使用PySpark构建并评估聚类模型

5.3.4 使用PySpark构建并评估智能推荐模型

小结

实训

实训1 使用随机森林模型预测是否批准用户申请

实训2 使用回归模型实现房价预测

课后习题

第6章案例分析：基于PySpark的网络招聘信息的职业类型划分

6.1 需求与架构分析

6.1.1 业务需求分析与技术选型

6.1.2 系统架构分析

6.2 数据探索

6.2.1 数据说明

6.2.2 数据读取

6.2.3 重复数据与空值探索

6.2.4 异常数据探索

6.3 数据预处理

6.3.1 数据清洗

6.3.2 中文分词与去停用词

6.3.3 词特征向量化

6.4 模型构建与评估

6.4.1 LDA算法简介

6.4.2 LDA模型构建与评估

6.4.3 构建LDA模型

6.5 制作词云图

小结

第7章案例分析：基于PySpark的信用贷款风险分析

7.1 需求与架构分析

7.1.1 业务需求分析

7.1.2 系统架构分析

7.2 数据探索

7.2.1 数据说明

7.2.2 建立数据仓库并导入数据

7.2.3 用户信息完善情况与逾期率的关系探索

7.2.4 用户信息修改情况与逾期率的关系探索

7.2.5 用户借款月份与逾期率的关系探索

7.3 数据预处理

7.3.1 计算用户信息缺失个数及借款月份构建新特征

7.3.2 用户更新信息重建

7.3.3 用户登录信息重建

7.3.4 分类数据预处理

7.3.5 字符串字段编码处理

7.3.6 分类数据重编码

7.3.7 缺失值处理

7.4 模型构建与评估

7.4.1 了解GBTs算法

7.4.2 构建GBTs模型

7.4.3 评估GBTs模型

7.5 部署和提交PySpark应用程序

7.5.1 打包PySpark应用程序

7.5.2 提交PySpark应用程序

小结

参考文献

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论，分享你的想法吧！

发表评论

买过这本书的人还买过

读了这本书的人还在读

支持设备

OpenClaw实战100个精品案例:打造你的数字分身￥39.99

张有鱼编著

￥39.99

AI全工具提效应用到精通指南￥19.99

乔剑、苏小文、刘源

￥19.99

7小时精通剪映:短视频剪辑/调色/*/字幕(手机版+电脑版)(全彩) ￥55.30

刘畅

￥55.30

你好,AI:智能时代职场生存指南(为现代职场人量身打造的AI实用指南) ￥29.00

起行(杭州)文化科技有限公司

￥29.00

OpenClaw:从入门到精通应用操作大全￥19.99

乔剑、林知远、刘源

￥19.99

脑机接口￥15.99

郭亮著

￥15.99

你好,AI:deepseek实操宝典(20余种AI工具、11种学习法、10大应用场景、108个实操案例) ￥58.00

憨爸、胡斌、起行(杭州)文化科技有限公司

￥58.00

AI时代,学什么,怎么学￥17.99

和渊著

￥17.99

Claude Code实战:Harness工程之道￥51.07

黄佳

￥51.07

AI短视频生成与剪辑实战108招:ChatGPT+剪映￥62.86

蒋珍珠

￥62.86

更多同类图书 >

PySpark大数据分析与应用电子书

支持设备

OpenClaw实战100个精品案例:打造你的数字分身 ￥39.99

AI全工具提效应用到精通指南 ￥19.99

7小时精通剪映:短视频剪辑/调色/*/字幕(手机版+电脑版)(全彩) ￥55.30

你好,AI:智能时代职场生存指南(为现代职场人量身打造的AI实用指南) ￥29.00

OpenClaw:从入门到精通应用操作大全 ￥19.99

脑机接口 ￥15.99

你好,AI:deepseek实操宝典(20余种AI工具、11种学习法、10大应用场景、108个实操案例) ￥58.00

AI时代,学什么,怎么学 ￥17.99

Claude Code实战:Harness工程之道 ￥51.07

AI短视频生成与剪辑实战108招:ChatGPT+剪映 ￥62.86

当当云阅读

OpenClaw实战100个精品案例:打造你的数字分身￥39.99

AI全工具提效应用到精通指南￥19.99

OpenClaw:从入门到精通应用操作大全￥19.99

脑机接口￥15.99

AI时代,学什么,怎么学￥17.99

Claude Code实战:Harness工程之道￥51.07

AI短视频生成与剪辑实战108招:ChatGPT+剪映￥62.86