万本电子书0元读

万本电子书0元读

顶部广告

R语言数据挖掘方法及应用电子书

售       价:¥

纸质售价:¥36.40购买纸书

187人正在读 | 3人评论 6.2

作       者:薛薇

出  版  社:电子工业出版社

出版时间:2016-08-01

字       数:39.6万

所属分类: 科技 > 计算机/网络 > 计算机理论与教程

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(3条)
  • 读书简介
  • 目录
  • 累计评论(3条)
大数据不仅意味着数据的积累、存储与管理,更意味着大数据的分析。数据挖掘无可争议地成为当今大数据分析的核心利器。R语言因彻底的放性策略业已跻身数据挖掘工具之首列。本书以“R语言数据挖掘门并不难”为篇,总览了数据挖掘的理论和应用轮廓,明确了R语言门的知识和学习路线,并展示了数据挖掘的初步成果,旨在使读者快速起步数据挖掘实践。后续围绕数据挖掘应用的四大核心方面,安排了数据预测篇:立足数据预测未知,数据分组篇:发现数据中的自然群组,数据关联篇:发现数据的内在关联性,离群数据探索篇:发现数据中的离群。每篇下各设若干章节,各章节从简单易懂且具代表性的案例问题手,剖析理论方法原理,讲解R语言实现,并给出案例的R语言数据挖掘代码和结果解释。本书内容覆盖之广泛,原理讲解之通俗,R语言实现步骤之详尽,在国内外同类书籍中尚不多见。相关数据资料及电子教案,可登录华信教育资源网www.hxedu.com.cn免费下载。<br/>【作者】<br/>薛薇,中国人民大学副教授,教研室主任,资深作者。主要著作:《SPSS统计分析方法及应用》、《SPSS MODOLER数据挖掘方法及应用》。<br/>
目录展开

前言

第1篇 起步篇:R语言数据挖掘入门并不难

第1章 数据挖掘与R语言概述

1.1 为什么要学习数据挖掘和R语言

1.2 什么是数据挖掘

1.3 数据挖掘能给出什么

1.3.1 数据挖掘结果有哪些呈现方式

1.3.2 数据挖掘结果有哪些基本特征

1.4 数据挖掘能解决什么问题

1.4.1 数据预测

1.4.2 发现数据的内在结构

1.4.3 发现关联性

1.4.4 模式甄别

1.5 数据挖掘解决问题的思路

1.对目标契合度不高的数据,怎样的建模策略能够更好地迎合分析的需要

2.对于海量、高维数据,怎样的建模策略能够更好地揭示数据特征,提高分析效率

3.对于复杂类型和关系数据,怎样的建模策略能够清晰地揭示数据的特征

1.6 数据挖掘有哪些典型的商业应用

1.6.1 数据挖掘在客户细分中的应用

1.客户细分变量

2.客户细分方法

3.客户细分结果的评价和应用

1.6.2 数据挖掘在客户流失分析中的应用

1.6.3 数据挖掘在营销响应分析中的应用

1.6.4 数据挖掘在交叉销售中的应用

1.6.5 数据挖掘在欺诈甄别中的应用

1.7 R语言入门需要知道什么

1.7.1 什么是R的包

1.7.2 如何获得R

1.7.3 R如何起步

1.R的相关概念

2.了解R的工作环境

3.如何获得R的帮助文档

4.如何拓展使用包和函数

1.7.4 R的基本操作和其他

1.命令行方式

2.程序运行方式

3.程序执行结果的输出

4.R的环境文件

第2章 R语言数据挖掘起步:R对象和数据组织

2.1 什么是R的数据对象

2.1.1 R的数据对象有哪些类型

1.从存储角度划分R对象

2.从结构角度划分R对象

2.1.2 如何创建和访问R的数据对象

2.2 如何用R的向量组织数据

2.2.1 创建只包含一个元素的向量

2.2.2 创建包含多个元素的向量

1.c函数

2.rep重复函数

3.seq序列函数

4.scan键盘数据读入函数

5.vector创建向量函数

2.2.3 访问向量中的元素

1.访问指定位置上的元素

2.利用位置向量访问指定位置上的元素

3.访问指定位置之外的元素

2.3 如何用R的矩阵组织数据

2.3.1 创建矩阵

1.向量合并形成矩阵

2.由单个向量派生矩阵

2.3.2 访问矩阵中的元素

1.访问指定位置上的元素

2.访问指定行上的所有元素

3.访问指定列上的所有元素

4.利用编辑窗口访问矩阵元素

2.4 如何用R的数据框组织数据

2.4.1 创建数据框

2.4.2 访问数据框

2.5 如何用R的数组、列表组织数据

2.5.1 创建和访问数组

1.创建数组

2.访问数组

2.5.2 创建和访问列表

1.创建列表

2.访问列表

2.6 R数据对象的相互转换

2.6.1 不同存储类型之间的转换

1.判断数据对象的存储类型

2.数据对象存储类型的转换

2.6.2 不同结构类型之间的转换

1.向量和矩阵之间的互转

2.向量转换为因子

3.因子转换为向量

2.7 如何将外部数据组织到R数据对象中

2.7.1 将文本数据组织到R对象中

1.读文本数据到向量

2.读文本数据到数据框

2.7.2 将SPSS数据组织到R对象中

2.7.3 将数据库和Excel表数据组织到R对象中

1.访问数据库数据

2.访问Excel表数据

2.7.4 将网页表格数据组织到R对象中

2.7.5 R有哪些自带的数据包

2.7.6 如何将R对象中的数据保存起来

2.8 R程序设计需哪些必备知识

2.8.1 R程序设计涉及哪些基本概念

1.R语句

2.R程序的控制结构

2.8.2 R有哪些常用的系统函数

1.数学函数

2.概率函数

3.统计函数

4.矩阵运算函数

5.字符串函数

6.数据管理函数

7.逻辑判断函数

8.文件管理函数

2.8.3 用户自定义函数提升编程水平

2.8.4 如何提高R程序处理的能力

1.分支结构的流程控制

2.循环结构的流程控制

2.9 R程序设计与数据整理综合应用

2.9.1 综合应用一:数据的基本处理

2.9.2 综合应用二:如何将汇总数据还原为原始数据

第3章 R语言数据挖掘初体验:对数据的直观印象

3.1 数据的直观印象

3.1.1 R的数据可视化平台是什么

3.1.2 R的图形组成和图形参数

3.1.3 R的图形边界和布局

3.1.4 如何修改R的图形参数

3.2 如何获得单变量分布特征的直观印象

3.2.1 核密度图:车险理赔次数的分布特点是什么

1.图形布局

2.hist函数

3.添加正态分布曲线

4.利用plot函数绘制核密度图

5.添加数据地毯和噪声数据

3.2.2 小提琴图:不同车型车险理赔次数的分布有差异吗

1.小提琴图的特点

2.title函数

3.获得关键位置坐标

4.在指定位置添加文字信息

3.2.3 克利夫兰点图:车险理赔次数存在异常吗

1.克利夫兰点图的特点

2.添加图例

3.3 如何获得多变量联合分布的直观印象

3.3.1 曲面图和等高线图

1.二元正态分布的密度曲线

2.任意曲面图

3.3.2 二元核密度曲面图:投保人年龄和车险理赔次数的联合分布特点是什么

3.3.3 雷达图:不同区域气候特点有差异吗

3.4 如何获得变量间相关性的直观印象

3.4.1 马赛克图:车型和车龄有相关性吗

3.4.2 散点图:这些因素会影响空气湿度吗

1.简单散点图

2.三维散点图和气泡图

3.矩阵散点图

4.分组散点图

3.4.3 相关系数图:淘宝各行业商品成交指数有相关性吗

3.5 如何获得GIS数据的直观印象

3.5.1 绘制世界地图和美国地图

3.5.2 绘制中国行政区划地图

1.矢量型GIS数据的格式

2.绘图步骤

3.5.3 依据地图绘制热力图:不同省市的淘宝女装成交指数有差异吗

3.6 如何获得文本词频数据的直观印象:政府工作报告中有哪些高频词

第2篇 数据预测篇:立足数据预测未知

第4章 基于近邻的分类预测:与近邻有趋同的选择

4.1 近邻分析:K-近邻法

4.1.1 K-近邻法中的距离

4.1.2 K-近邻法中的近邻个数

4.1.3 R的K-近邻法和模拟分析

4.1.4 K-近邻法应用:天猫成交顾客的分类预测

4.2 K-近邻法的适用性及特征选择

4.2.1 K-近邻法的适用性

4.2.2 特征选择:找到重要变量

1.从变量自身考察

2.从输入变量与输出变量相关性角度考察

3.从预测误差角度考察变量

4.3 基于变量重要性的加权K-近邻法

4.3.1 基于变量重要性的加权K-近邻法的基本原理

4.3.2 变量重要性判断应用:天猫成交顾客预测中的重要变量

4.4 基于观测相似性的加权K-近邻法

4.4.1 加权K-近邻法的权重设计

4.4.2 加权K-近邻法的距离和相似性变换

4.4.3 加权K-近邻法的R实现

4.4.4 加权K-近邻法应用:天猫成交顾客的分类预测

第5章 基于规则的分类和组合预测:给出易懂且稳健的预测

5.1 决策树概述

5.1.1 什么是决策树

1.相关基本概念

2.决策树的特点

5.1.2 决策树的几何意义是什么

5.1.3 决策树的核心问题

1.决策树的生长

2.决策树的修剪

5.2 分类回归树的生长过程

5.2.1 分类树的生长过程

1.输出变量异质性及异质性变化的测度

2.分类树对输入变量的处理策略

5.2.2 回归树的生长过程

5.2.3 损失矩阵对分类树的影响

5.3 分类回归树的剪枝

5.3.1 最小代价复杂度的测度

5.3.2 分类回归树后剪枝过程

5.3.3 分类回归树的交叉验证剪枝

1.N折交叉验证

2.分类回归树的交叉验证剪枝

5.4 分类回归树的R实现和应用

5.4.1 分类回归树的R实现

1.建立分类回归树的R函数

2.自行设置预修剪等参数的R函数

3.可视化决策树的R函数

4.复杂度参数CP对预测误差的影响

5.4.2 分类回归树的应用:提炼不同消费行为顾客的主要特征

1.初建分类树

2.再建分类树

5.5 建立分类回归树的组合预测模型:给出稳健的预测

5.5.1 袋装技术

1.重抽样自举法

2.袋装过程

3.袋装技术中变量重要性的测度

5.5.2 袋装技术的R实现

1.ipred包中的bagging函数

2.adabag包中的bagging函数

5.5.3 袋装技术的应用:稳健定位目标客户

5.5.4 推进技术

1.建模阶段

2.预测阶段

5.5.5 推进技术的R实现

5.5.6 推进技术的应用:稳健定位目标客户

5.6 随机森林:具有随机性的组合预测

5.6.1 什么是随机森林

1.构建随机森林的样本随机性

2.构建随机森林的变量随机性

3.随机森林对输入变量重要性的测度

5.6.2 随机森林的R实现

5.6.3 随机森林的应用:稳健定位目标客户

1.随机森林的预测误差问题

2.提取随机森林中的决策树信息

3.随机森林中的输入变量重要性

第6章 基于神经网络的分类预测:给出高精准的预测

6.1 人工神经网络概述

6.1.1 人工神经网络和种类

1.从拓扑结构角度划分

2.从连接方式角度划分

6.1.2 节点:人工神经网络的核心处理器

1.加法器

2.激活函数

3.节点的意义

6.1.3 建立人工神经网络的一般步骤

1.数据准备

2.网络结构的确定

3.确定连接权重

6.1.4 感知机模型:确定连接权重的基本策略

1.符号说明

2.学习过程

6.2 B-P反向传播网络:最常见的人工神经网络

6.2.1 B-P反向传播网络的三大特点

1.隐层的作用

2.反向传播

3.采用Sigmoid激活函数

6.2.2 B-P反向传播算法:确定连接权重

1.参数优化

2.B-P连接权重W的调整

6.2.3 学习率:影响连接权重调整的重要因素

6.3 B-P反向传播网络的R实现和应用

6.3.1 neuralnet包中的neuralnet函数

6.3.2 neuralnet函数的应用:精准预测顾客的消费行为

1.建立神经网络模型

2.评价输入变量的重要性

3.比较输入变量不同水平组合对输出变量的影响

6.3.3 利用ROC曲线确定概率分割值

1.什么是ROC曲线

2.绘制ROC曲线的R函数

3.应用

6.3.4 nnet包中的nnet函数

1.nnet函数

2.应用

第7章 基于支持向量的分类预测:给出最大把握的预测

7.1 支持向量分类概述

7.1.1 支持向量分类的基本思路:确保把握程度

7.1.2 支持向量分类的三种情况

7.2 理想条件下的分类:线性可分问题下的支持向量分类

7.2.1 如何求解超平面

7.2.2 如何利用超平面进行分类预测

7.3 一般条件下的分类:广义线性可分时的支持向量分类

7.3.1 如何求解超平面

7.3.2 可调参数的意义:把握程度和精度的权衡

7.4 复杂条件下的分类:线性不可分时支持向量分类

7.4.1 线性不可分的一般解决途径和维灾难问题

7.4.2 支持向量分类克服维灾难的途径

7.5 多分类的支持向量分类:二分类的拓展

7.6 支持向量回归:解决数值预测问题

7.6.1 支持向量回归与一般线性回归:目标和策略

7.6.2 支持向量回归的基本思路

7.7 支持向量机的R实现及应用

7.7.1 支持向量机的R实现

1.svm函数

2.tune.svm函数

7.7.2 利用R模拟线性可分下的支持向量分类

7.7.3 利用R模拟线性不可分下的支持向量分类

7.7.4 利用R模拟多分类的支持向量分类

7.7.5 支持向量分类应用:天猫成交顾客的预测

第3篇 数据分组篇:发现数据中的自然群组

第8章 常规聚类:直观的数据全方位自动分组

8.1 聚类分析概述

8.1.1 聚类分析目标:发现数据中的“自然小类”

8.1.2 有哪些主流的聚类算法

8.2 基于质心的聚类:K-Means聚类

8.2.1 K-Means聚类中的距离测度:体现全方位性

8.2.2 K-Means聚类过程:多次自动分组

8.2.3 K-Means聚类的R实现和模拟分析

1.R函数

2.用R对模拟数据进行K-Means聚类

8.2.4 K-Means聚类的应用:环境污染的区域划分

8.3 PAM聚类:改进的K-Means聚类

8.3.1 PAM聚类过程

8.3.2 PAM聚类的R实现和模拟分析

1.R函数

2.用R对模拟数据进行PAM聚类

8.4 基于联通性的聚类:层次聚类

8.4.1 层次聚类的基本过程

1.基本过程

2.层次聚类中距离的联通性测度

8.4.2 层次聚类的R实现和应用:环境污染的区域划分

8.5 基于统计分布的聚类:EM聚类

8.5.1 基于统计分布的聚类出发点:有限混合分布

8.5.2 EM聚类:如何估计类参数和聚类解

1.EM聚类基本原理

2.EM聚类中的聚类数目问题

8.5.3 EM聚类的R实现和模拟分析

1.R函数

2.模拟数据的EM聚类

8.5.4 EM聚类的应用:环境污染的区域划分

第9章 特色聚类:数据分组还可以这样做

9.1 BIRCH聚类概述

9.1.1 BIRCH聚类有哪些特点

9.1.2 聚类特征和聚类特征树:BIRCH聚类的重要策略

1.聚类特征

2.聚类特征树

9.1.3 BIRCH的聚类过程:由存储空间决定的动态聚类

9.1.4 BIRCH聚类的R实现

1.R函数

2.模拟数据的BIRCH聚类示例

9.1.5 BIRCH聚类应用:两期岗位培训的比较

9.2 SOM网络聚类概述

9.2.1 SOM网络聚类设计出发点

9.2.2 SOM网络的拓扑结构和聚类原理

1.SOM网络的拓扑结构

2.SOM网络的聚类过程

9.2.3 SOM网络聚类的R实现

1.som函数

2.SOM网络聚类的可视化函数

3.模拟数据的SOM网络聚类示例

9.2.4 SOM网络聚类应用:手写邮政编码识别

1.数据和应用问题

2.研究步骤

9.2.5 拓展SOM网络:红酒品质预测

1.预测途径

2.R实现

3.拓展SOM网络预测应用

9.3 基于密度的聚类模型:DBSCAN聚类

9.3.1 DBSCAN聚类原理:密度可达性是核心

1.DBSCAN聚类的相关概念

2.DBSCAN聚类过程

9.3.2 DBSCAN聚类的R实现

9.3.3 DBSCAN聚类的模拟分析

第4篇 数据关联篇:发现数据的内在关联性

第10章 发现数据中的关联特征:关联是推荐的依据

10.1 简单关联规则及其测度

10.1.1 什么是简单关联规则

1.事务和项集

2.简单关联规则

10.1.2 如何评价简单关联规则的有效性

10.1.3 如何评价简单关联规则的实用性

10.2 Apriori算法:发现简单关联规则的高效算法

10.2.1 搜索频繁项集:Apriori算法的重中之重

1.频繁项集

2.寻找频繁项集

10.2.2 依最大频繁项集产生简单关联规则:水到渠成

10.2.3 Apriori算法的R实现和应用示例

1.建立事务数据集对象

2.搜索频繁项集,生成有效的简单关联规则

3.筛选关联规则

10.2.4 简单关联的可视化R实现和应用示例

1.可视化频繁项集

2.可视化简单关联规则

10.3 Eclat算法:更快速地发现频繁项集

10.3.1 Eclat算法原理:对等类是核心

10.3.2 Eclat算法的R实现和应用示例

10.4 简单关联分析的应用:商品推荐

10.4.1 发现连带销售商品

10.4.2 顾客选择性倾向对比

10.5 序列关联分析及SPADE算法:发现数据中的时序关联性

10.5.1 序列关联中有哪些基本概念

1.序列

2.序列关联规则

3.如何生成序列关联规则

10.5.2 SPADE算法:发现序列关联规则的高效算法

1.纵向id列表

2.基于对等类的候选序列组合方式

3.序列关联分析中的时间约束

10.5.3 序列关联分析的R实现及应用示例

1.管理事务序列数据的R函数

2.SPADE算法的R函数

3.序列关联分析的示例

10.6 序列关联分析应用:发现网民的浏览习惯

第11章 复杂网络分析初步:基于关系的研究

11.1 网络的定义表示及构建:复杂网络分析的第一步

11.1.1 网络的图论定义及R实现

1.无向网络相关概念和R函数

2.有向网络、相关概念和R函数

3.无权网络和加权网络

4.1-模网络、2-模网络和R函数

11.1.2 网络的矩阵表示方式及R实现

1.邻接矩阵和R函数

2.关系矩阵和R函数

11.1.3 R的网络数据文件和建立网络对象

1.利用邻接矩阵建立网络对象及示例

2.利用关系矩阵建立2-模网络对象及示例

3.利用连接列表建立网络对象及示例

11.1.4 R的网络可视化

11.2 网络节点重要性的测度:谁是网络的“主导”

11.2.1 度和测地线距离

1.度和相关R函数

2.测地线距离和相关R函数

11.2.2 点度中心度和接近中心度:节点“中心”作用的测度

1.点度中心度

2.接近中心度

3.点度中心度和接近中心度的R函数和示例

4.计算点度中心度和接近中心度的必要性探讨

11.2.3 中间中心度:节点“枢纽”作用的测度

1.中间中心度

2.中间中心度R函数和示例

11.2.4 节点重要性的其他方面:结构洞和关节点、特征向量中心度和PageRank得分

1.结构洞和关节点及R函数

2.特征向量中心度和R函数

3.PageRank得分和R函数

11.3 网络子群构成特征研究:找到网络中的“小团体”

11.3.1 二元关系和三元关系及R实现

1.二元关系

2.三元关系

3.R函数和示例

11.3.2 派系和k-核及R实现

1.派系及R函数

2.k-核及R函数

11.3.3 社区和组件及R实现

1.社区及R函数

2.组件及R函数

11.4 网络整体特征刻画:整体关系是这样的

11.4.1 网络整体特征的测度

1.网络密度和R函数

2.平均测地线距离和R函数

3.网络聚类系数和R函数

4.谱半径

11.4.2 网络特征的各种分布和度量

1.各种分布

2.度分布特征的度量

11.5 主要网络类型及特点:多姿多彩的网络世界

11.5.1 规则网络及特点

11.5.2 随机网络及特点

1.随机网络的节点度分布和R函数

2.随机网络的熵

11.5.3 小世界网络及特点

11.5.4 无标度网络及特点

1.BA规则

2.BA网络的度分布特征

3.BA网络的熵

第5篇 离群数据探索篇:发现数据中的离群点

第12章 模式甄别:诊断异常数据

12.1 模式甄别方法和评价概述

12.1.1 模式甄别方法

1.甄别历史上尚未出现过的模式

2.甄别历史上曾经出现过的模式行为

12.1.2 模式甄别结果及评价:风险评分

1.模式甄别结果是风险评分

2.模式甄别效果的评价

12.2 模式甄别的无监督侦测方法及应用示例

12.2.1 依概率侦测模式及R应用示例

12.2.2 依距离侦测模式:DB方法及R应用示例

12.2.3 依密度侦测模式:LOF方法及R应用示例

1.LOF方法

2.LOF方法的R函数及应用示例

12.3 模式甄别的有监督侦测方法及应用示例

12.3.1 朴素贝叶斯分类法及示例

1.朴素贝叶斯分类法概述

2.利用朴素贝叶斯分类法侦测模式

3.朴素贝叶斯分类法的R函数及示例

12.3.2 Logistic回归及示例

12.3.3 非平衡数据集的SMOTE处理

1.SMOTE算法原理

2.SMOTE算法的R函数及示例

12.4 模式甄别的半监督侦测方法及应用示例

12.4.1 半监督分类:自训练分类模型

12.4.2 自训练分类模型的R实现及应用示例

1.R函数

2.示例

累计评论(3条) 3个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部