为你推荐
作者简介
内容简介
前言
为什么写这本书
本书的内容
源码和PPT下载
致谢
目 录
第1章 数据分析与挖掘概述
1.1 什么是数据分析和挖掘
1.2 数据分析与挖掘的应用领域
1.2.1 电商领域——发现破坏规则的“害群之马”
1.2.2 交通出行领域——为打车平台进行私人订制
1.2.3 医疗健康领域——找到最佳医疗方案
1.3 数据分析与挖掘的区别
1.4 数据挖掘的流程
1.4.1 明确目标
1.4.2 数据搜集
1.餐饮相关
2.金融授信
3.影响用户价值高低
1.4.3 数据清洗
1.4.4 构建模型
1.4.5 模型评估
1.4.6 应用部署
1.5 常用的数据分析与挖掘工具
1.R语言
2.Python
3.Weka
4.SAS
5.SPSS
1.6 本章小结
1.7 课后练习
第2章 从收入的预测分析开始
2.1 下载与安装Anaconda
2.1.1 基于Windows系统安装
2.1.2 基于Mac系统安装
2.1.3 基于Linux系统安装
2.2 基于Python的案例实战
2.2.1 数据的预处理
2.2.2 数据的探索性分析
2.2.3 数据建模
1.对离散变量重编码
2.拆分数据集
3.默认参数的模型构建
4.模型网格搜索
5.模型预测与评估
6.默认的K近邻模型
7.网格搜索的K近邻模型
8.默认的GBDT模型
9.网络搜索的GBDT模型
2.3 本章小结
2.4 课后练习
第3章 Python基础与数据抓取
3.1 数据结构及方法
3.1.1 列表
1.正向单索引
2.负向单索引
3.切片索引
4.无限索引
5.列表元素的增加
6.列表元素的删除
7.列表元素的修改
3.1.2 元组
3.1.3 字典
1.字典元素的增加
2.字典元素的删除
3.字典元素的修改
3.2 控制流
3.2.1 if分支
3.2.2 for循环
3.2.3 while循环
3.3 字符串处理方法
3.3.1 字符串的常用方法
3.3.2 正则表达式
1.匹配查询函数
2.匹配替换函数
3.匹配分割函数
3.4 自定义函数
3.4.1 自定义函数语法
3.4.2 自定义函数的几种参数
1.必选参数
2.默认参数
3.可变参数
4.关键字参数
3.5 一个爬虫案例
3.6 本章小结
3.7 课后练习
第4章 Python数值计算——numpy的高效技能
4.1 数组的创建与操作
4.1.1 数组的创建
4.1.2 数组元素的获取
4.1.3 数组的常用属性
4.1.4 数组的形状处理
4.2 数组的基本运算符
4.2.1 四则运算
4.2.2 比较运算
4.2.3 广播运算
4.3 常用的数学和统计函数
4.4 线性代数的相关计算
4.4.1 矩阵乘法
4.4.2 diag函数的使用
4.4.3 特征根与特征向量
4.4.4 多元线性回归模型的解
4.4.5 多元一次方程组的求解
4.4.6 范数的计算
4.5 伪随机数的生成
4.6 本章小结
4.7 课后练习
第5章 Python数据处理——展现pandas的强大
5.1 序列与数据框的构造
5.1.1 构造序列
5.1.2 构造数据框
5.2 外部数据的读取
5.2.1 文本文件的读取
5.2.2 电子表格的读取
5.2.3 数据库数据的读取
(1)pymysql中的connect
(2)pymssql中的connect
5.3 数据类型转换及描述统计
5.4 字符与日期数据的处理
5.5 常用的数据清洗方法
5.5.1 重复观测处理
5.5.2 缺失值处理
5.5.3 异常值处理
5.6 数据子集的获取
5.7 透视表功能
5.8 表之间的合并与连接
(1)合并函数concat
(2)连接函数merge
5.9 分组聚合操作
5.10 本章小结
5.11 课后练习
第6章 Python数据可视化——分析报告必要元素
6.1 离散型变量的可视化
6.1.1 饼图——“芝麻信用”失信用户分布
1.matplotlib模块
2.pandas模块
6.1.2 条形图——胡润排行榜
1.matplotlib模块
(1)垂直或水平条形图
(2)堆叠条形图
(3)水平交错条形图
2.pandas模块
3.seaborn模块绘制条形图
6.2 数值型变量的可视化
6.2.1 直方图与核密度曲线——展现年龄分布特征
1.matplotlib模块绘制直方图
2.pandas模块绘制直方图和核密度图
3.seaborn模块绘制直方图和核密度图
6.2.2 箱线图——二手房单价分布形态
1.matplotlib模块绘制箱线图
2.seaborn模块绘制分组箱线图
6.2.3 小提琴图——客户消费数据的呈现
6.2.4 折线图——公众号每日阅读趋势
1.matplotlib模块绘制折线图
2.pandas模块绘制折线图
6.3 关系型数据的可视化
6.3.1 散点图——探究鸢尾花花瓣长度与宽度的关系
1.matplotlib模块绘制散点图
2.pandas模块绘制散点图
3.seaborn模块绘制散点图
6.3.2 气泡图——暴露商品的销售特征
6.3.3 热力图——一份简单的月度日历
6.4 多个图形的合并
6.5 本章小结
6.6 课后练习
第7章 线性回归预测模型
7.1 一元线性回归模型——收入预测
拟合线的求解
7.2 多元线性回归模型——销售利润预测
7.2.1 回归模型的参数求解
7.2.2 回归模型的预测
7.3 回归模型的假设检验
7.3.1 模型的显著性检验——F检验
7.3.2 回归系数的显著性检验——t检验
7.4 回归模型的诊断
7.4.1 正态性检验
1.直方图法
2.PP图与QQ图
3.shapiro检验和K-S检验
7.4.2 多重共线性检验
7.4.3 线性相关性检验
7.4.4 异常值检验
1.帽子矩阵
2.DFFITS准则
3.Cook距离
7.4.5 独立性检验
7.4.6 方差齐性检验
1.图形法
2.BP检验
3.回归模型的预测
7.5 本章小结
7.6 课后练习
第8章 岭回归与LASSO回归模型
8.1 岭回归模型
第一种:当列数比行数多时
第二种:当列之间存在多重共线性时(不妨第三列是第二列的两倍)
8.1.1 参数求解
8.1.2 系数求解的几何意义
8.2 岭回归模型的应用——糖尿病病情预测(1)
8.2.1 可视化方法确定λ值
8.2.2 交叉验证法确定λ值
8.2.3 模型的预测
8.3 LASSO回归模型——糖尿病病情预测(2)
8.3.1 参数求解
8.3.2 系数求解的几何意义
8.4 LASSO回归模型的应用
8.4.1 可视化方法确定λ值
8.4.2 交叉验证法确定λ值
8.4.3 模型的预测
8.5 本章小结
8.6 课后练习
第9章 Logistic回归分类模型
9.1 Logistic模型的构建
9.1.1 Logistic模型的参数求解
1.极大似然估计
2.梯度下降
9.1.2 Logistic模型的参数解释
9.2 分类模型的评估方法
9.2.1 混淆矩阵
9.2.2 ROC曲线
9.2.3 K-S曲线
9.3 Logistic回归模型的应用——运动状态的识别
9.3.1 模型的构建
9.3.2 模型的预测
9.3.3 模型的评估
9.4 本章小结
9.5 课后练习
第10章 决策树与随机森林
10.1 节点字段的选择
10.1.1 信息增益
10.1.2 信息增益率
10.1.3 基尼指数
10.2 决策树的剪枝
10.2.1 误差降低剪枝法
10.2.2 悲观剪枝法
10.2.3 代价复杂度剪枝法
10.3 随机森林
10.4 决策树与随机森林的应用——肾病患者病情预测
10.4.1 分类问题的解决
1.构建决策树模型
2.构建随机森林模型
10.4.2 预测问题的解决
1.构建决策树模型
2.构建随机森林模型
10.5 本章小结
10.6 课后练习
第11章 KNN模型及应用
11.1 KNN算法的思想
11.2 最佳k值的选择
11.3 相似度的度量方法
11.3.1 欧式距离
11.3.2 曼哈顿距离
11.3.3 余弦相似度
11.3.4 杰卡德相似系数
11.4 近邻样本的搜寻方法
11.4.1 KD树搜寻法
1.KD树的构造
2.KD树的搜寻
11.4.2 球树搜寻法
1.球树的构造
2.球树的搜寻
11.5 KNN模型的应用——高炉发电量的预测
11.5.1 分类问题的解决
11.5.2 预测问题的解决
11.6 本章小结
11.7 课后练习
第12章 朴素贝叶斯模型
12.1 朴素贝叶斯理论基础
12.2 几种贝叶斯模型
12.2.1 高斯贝叶斯分类器
(1)因变量各类别频率
(2)均值
(3)标准差
(4)单变量条件概率
(5)贝叶斯后验概率
12.2.2 高斯贝叶斯分类器的应用——面部皮肤的判别
12.2.3 多项式贝叶斯分类器
12.2.4 多项式贝叶斯分类器的应用——蘑菇毒性的预判
12.2.5 伯努利贝叶斯分类器
12.2.6 伯努利贝叶斯分类器的应用——评论的情感识别
12.3 本章小结
12.4 课后练习
第13章 SVM模型及应用
13.1 SVM简介
13.1.1 距离公式的介绍
13.1.2 SVM的实现思想
13.2 几种常见的SVM模型
13.2.1 线性可分的SVM
13.2.2 一个手动计算的案例
13.2.3 近似线性可分SVM
13.2.4 非线性可分SVM
13.2.5 几种常用的SVM核函数
1.线性核函数
2.多项式核函数
3.高斯核函数
4.Sigmoid核函数
13.2.6 SVM的回归预测
13.3 分类问题的解决——手写字母的识别
13.4 预测问题的解决——受灾面积的预测
13.5 本章小结
13.6 课后练习
第14章 GBDT模型及应用
14.1 提升树算法
14.1.1 AdaBoost算法的损失函数
14.1.2 AdaBoost算法的操作步骤
14.1.3 AdaBoost算法的简单例子
14.1.4 AdaBoost算法的应用——违约客户的识别
(1)线性损失函数
(2)平方损失函数
(3)指数损失函数
14.2 梯度提升树算法
14.2.1 GBDT算法的操作步骤
14.2.2 GBDT分类算法
14.2.3 GBDT回归算法
14.2.4 GBDT算法的应用——欺诈交易的识别
14.3 非平衡数据的处理
14.4 XGBoost算法
14.4.1 XGBoost算法的损失函数
14.4.2 损失函数的演变
14.4.3 XGBoost算法的应用
14.5 本章小结
14.6 课后练习
第15章 Kmeans聚类分析
15.1 Kmeans聚类
15.1.1 Kmeans的思想
15.1.2 Kmeans的原理
15.2 最佳k值的确定
15.2.1 拐点法
15.2.2 轮廓系数法
15.2.3 间隔统计量法
15.3 Kmeans聚类的应用
15.3.1 鸢尾花类别的聚合
15.3.2 基于NBA球员历史参赛数据的聚类
15.4 Kmeans聚类的注意事项
15.5 本章小结
15.6 课后练习
第16章 DBSCAN与层次聚类分析
16.1 密度聚类简介
16.1.1 密度聚类相关的概念
16.1.2 密度聚类的步骤
16.2 密度聚类与Kmeans的比较
16.3 层次聚类
16.3.1 簇间的距离度量
1.最小距离法
2.最大距离法
3.平均距离法
16.3.2 层次聚类的步骤
16.3.3 三种层次聚类的比较
16.4 密度聚类与层次聚类的应用——基于各省出生率与死亡率的聚类
16.5 本章小结
16.6 课后练习
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜