(1)320个公式的详细推导解析。 在充分捕捉第1版“南瓜书”的读者需求后,第2版扩充了对“西瓜书”解读的覆盖面,公式解读数量由250个上升至320个。 (2)机器学习初学小白提升数学基础能力的强推练习册! 延续第1版思路,第2版以本科数学基础视角对“西瓜书”中的内容做了更一步的解读:新增20个对“西瓜书”图片/定理的解读;新增数学知识的解读,同时将其前置在所用到的章节处,不再以附注的形式给出,便于目录查阅;在部分章节篇处加注学习建议和些许见解,一步照顾数学基础薄弱的读者。
售 价:¥
纸质售价:¥49.90购买纸书
6.7
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐

内 容 提 要
前 言
主要符号表
资源与支持
第1章 绪 论
1.1 引 言
1.2 基本术语
1.3 假设空间
1.4 归纳偏好
1.4.1 式(1.1)和式(1.2)的解释
第2章 模型评估与选择
2.1 经验误差与过拟合
2.2 评估方法
2.2.1 算法参数(超参数)与模型参数
2.2.2 验证集
2.3 性能度量
2.3.1 式(2.2) ~式(2.7)的解释
2.3.2 式(2.8)和式(2.9)的解释
2.3.3 图2.3的解释
2.3.4 式(2.10)的推导
2.3.5 式(2.11)的解释
2.3.6 式(2.12) ~式(2.17)的解释
2.3.7 式(2.18)和式(2.19)的解释
2.3.8 式(2.20)的推导
2.3.9 式(2.21)和式(2.22)的推导
2.3.10 式(2.23)的解释
2.3.11 式(2.24)的解释
2.3.12 式(2.25)的解释
2.4 比较检验
2.4.1 式(2.26)的解释
2.4.2 式(2.27)的推导
2.5 偏差与方差
2.5.1 式(2.37) ~式(2.42)的推导
参考文献
第3章 线性模型
3.1 基本形式
3.2 线性回归
3.2.1 属性数值化
3.2.2 式(3.4)的解释
3.2.3 式(3.5)的推导
3.2.4 式(3.6)的推导
3.2.5 式(3.7)的推导
3.2.6 式(3.9)的推导
3.2.7 式(3.10)的推导
3.2.8 式(3.11)的推导
3.3 对率回归
3.3.1 式(3.27)的推导
3.3.2 梯度下降法
3.3.3 牛顿法
3.3.4 式(3.29)的解释
3.3.5 式(3.30)的推导
3.3.6 式(3.31)的推导
3.4 线性判别分析
3.4.1 式(3.32)的推导
3.4.2 式(3.37) ~式(3.39)的推导
3.4.3 式(3.43)的推导
3.4.4 式(3.44)的推导
3.4.5 式(3.45)的推导
3.5 多分类学习
3.5.1 图3.5的解释
3.6 类别不平衡问题
参考文献
第4章 决策树
4.1 基本流程
4.2 划分选择
4.2.1 式(4.1)的解释
4.2.2 式(4.2)的解释
4.2.3 式(4.4)的解释
4.2.4 式(4.5)的推导
4.2.5 式(4.6)的解释
4.3 剪枝处理
4.4 连续值与缺失值
4.4.1 式(4.7)的解释
4.4.2 式(4.8)的解释
4.4.3 式(4.12)的解释
4.5 多变量决策树
4.5.1 图4.10的解释
4.5.2 图4.11的解释
参考文献
第5章 神经网络
5.1 神经元模型
5.2 感知机与多层网络
5.2.1 式(5.1)和式(5.2)的推导
5.2.2 图5.5的解释
5.3 误差逆传播算法
5.3.1 式(5.10)的推导
5.3.2 式(5.12)的推导
5.3.3 式(5.13)的推导
5.3.4 式(5.14)的推导
5.3.5 式(5.15)的推导
5.4 全局最小与局部极小
5.5 其他常见神经网络
5.5.1 式(5.18)的解释
5.5.2 式(5.20)的解释
5.5.3 式(5.22)的解释
5.5.4 式(5.23)的解释
5.6 深度学习
5.6.1 什么是深度学习
5.6.2 深度学习的起源
5.6.3 怎么理解特征学习
参考文献
第6章 支持向量机
6.1 间隔与支持向量
6.1.1 图6.1的解释
6.1.2 式(6.1)的解释
6.1.3 式(6.2)的推导
6.1.4 式(6.3)的推导
6.1.5 式(6.4)的推导
6.1.6 式(6.5)的解释
6.2 对偶问题
6.2.1 凸优化问题
6.2.2 KKT条件
6.2.3 拉格朗日对偶函数
6.2.4 拉格朗日对偶问题
6.2.5 式(6.9)和式(6.10)的推导
6.2.6 式(6.11)的推导
6.2.7 式(6.13)的解释
6.3 核 函 数
6.3.1 式(6.22)的解释
6.4 软间隔与正则化
6.4.1 式(6.35)的推导
6.4.2 式(6.37)和式(6.38)的推导
6.4.3 式(6.39)的推导
6.4.4 式(6.40)的推导
6.4.5 对率回归与支持向量机的关系
6.4.6 式(6.41)的解释
6.5 支持向量回归
6.5.1 式(6.43)的解释
6.5.2 式(6.45)的推导
6.5.3 式(6.52)的推导
6.6 核 方 法
6.6.1 式(6.57)和式(6.58)的解释
6.6.2 式(6.65)的推导
6.6.3 式(6.66)和式(6.67)的解释
6.6.4 式(6.70)的推导
6.6.5 核对率回归
参考文献
第7章 贝叶斯分类器
7.1 贝叶斯决策论
7.1.1 式(7.5)的推导
7.1.2 式(7.6)的推导
7.1.3 判别式模型与生成式模型
7.2 极大似然估计
7.2.1 式(7.12)和式(7.13)的推导
7.3 朴素贝叶斯分类器
7.3.1 式(7.16)和式(7.17)的解释
7.3.2 式(7.18)的解释
7.3.3 贝叶斯估计[1]
7.3.4 Categorical分布
7.3.5 Dirichlet分布
7.3.6 式(7.19)和式(7.20)的推导
7.4 半朴素贝叶斯分类器
7.4.1 式(7.21)的解释
7.4.2 式(7.22)的解释
7.4.3 式(7.23)的推导
7.4.4 式(7.24)和式(7.25)的推导
7.5 贝叶斯网
7.5.1 式(7.27)的解释
7.6 EM算法
7.6.1 Jensen不等式
7.6.2 EM算法的推导
参考文献
第8章 集成学习
8.1 个体与集成
8.1.1 式(8.1)的解释
8.1.2 式(8.2)的解释
8.1.3 式(8.3)的推导
8.2 Boosting
8.2.1 式(8.4)的解释
8.2.2 式(8.5)的解释
8.2.3 式(8.6)的推导
8.2.4 式(8.7)的推导
8.2.5 式(8.8)的推导
8.2.6 式(8.9)的推导
8.2.7 式(8.10)的解释
8.2.8 式(8.11)的推导
8.2.9 式(8.12)的解释
8.2.10 式(8.13)的推导
8.2.11 式(8.14)的推导
8.2.12 式(8.16)的推导
8.2.13 式(8.17)的推导
8.2.14 式(8.18)的推导
8.2.15 式(8.19)的推导
8.2.16 AdaBoost的个人推导
8.2.17 进一步理解权重更新公式
8.2.18 能够接受带权样本的基学习算法
8.3 Bagging与随机森林
8.3.1 式(8.20)的解释
8.3.2 式(8.21)的推导
8.3.3 随机森林的解释
8.4 结合策略
8.4.1 式(8.22)的解释
8.4.2 式(8.23)的解释
8.4.3 硬投票和软投票的解释
8.4.4 式(8.24)的解释
8.4.5 式(8.25)的解释
8.4.6 式(8.26)的解释
8.4.7 元学习器的解释
8.4.8 Stacking算法的解释
8.5 多 样 性
8.5.1 式(8.27)的解释
8.5.2 式(8.28)的解释
8.5.3 式(8.29)的解释
8.5.4 式(8.30)的解释
8.5.5 式(8.31)的推导
8.5.6 式(8.32)的解释
8.5.7 式(8.33)的解释
8.5.8 式(8.34)的解释
8.5.9 式(8.35)的解释
8.5.10 式(8.36)的解释
8.5.11 式(8.40)的解释
8.5.12 式(8.41)的解释
8.5.13 式(8.42)的解释
8.5.14 多样性增强的解释
8.6 Gradient Boosting、GBDT、XGBoost的联系与区别
8.6.1 从梯度下降的角度解释AdaBoost
8.6.2 梯度提升
8.6.3 梯度提升树(GBDT)
8.6.4 XGBoost
参考文献
第9章 聚 类
9.1 聚类任务
9.2 性能度量
9.2.1 式(9.5)的解释
9.2.2 式(9.6)的解释
9.2.3 式(9.7)的解释
9.2.4 式(9.8)的解释
9.2.5 式(9.12)的解释
9.3 距离计算
9.3.1 式(9.21)的解释
9.4 原型聚类
9.4.1 式(9.28)的解释
9.4.2 式(9.29)的解释
9.4.3 式(9.30)的解释
9.4.4 式(9.31)的解释
9.4.5 式(9.32)的解释
9.4.6 式(9.33)的推导
9.4.7 式(9.34)的推导
9.4.8 式(9.35)的推导
9.4.9 式(9.36)的解释
9.4.10 式(9.37)的推导
9.4.11 式(9.38)的推导
9.4.12 图9.6的解释
9.5 密度聚类
9.5.1 密度直达、密度可达与密度相连
9.5.2 图9.9的解释
9.6 层次聚类
第10章 降维与度量学习
10.1 预备知识
10.1.1 符号约定
10.1.2 矩阵与单位阵、向量的乘法
10.2 矩阵的范数与迹
10.3 近邻学习
10.3.1 式(10.1)的解释
10.3.2 式(10.2)的推导
10.4 低维嵌入
10.4.1 图10.2的解释
10.4.2 式(10.3)的推导
10.4.3 式(10.4)的推导
10.4.4 式(10.5)的推导
10.4.5 式(10.6)的推导
10.4.6 式(10.10)的推导
10.4.7 式(10.11)的解释
10.4.8 图10.3关于MDS算法的解释
10.5 主成分分析
10.5.1 式(10.14)的推导
10.5.2 式(10.16)的解释
10.5.3 式(10.17)的推导
10.5.4 根据式(10.17)求解式(10.16)
10.6 核化线性降维
10.6.1 式(10.19)的解释
10.6.2 式(10.20)的解释
10.6.3 式(10.21)的解释
10.6.4 式(10.22)的解释
10.6.5 式(10.24)的推导
10.6.6 式(10.25)的解释
10.7 流形学习
10.7.1 等度量映射(Isomap)的解释
10.7.2 式(10.28)的推导
10.7.3 式(10.31)的推导
10.8 度量学习
10.8.1 式(10.34)的解释
10.8.2 式(10.35)的解释
10.8.3 式(10.36)的解释
10.8.4 式(10.37)的解释
10.8.5 式(10.38)的解释
10.8.6 式(10.39)的解释
参考文献
第11章 特征选择与稀疏学习
11.1 子集搜索与评价
11.1.1 式(11.1)的解释
11.1.2 式(11.2)的解释
11.2 过滤式选择
11.3 包裹式选择
11.4 嵌入式选择与正则化
11.4.1 式(11.5)的解释
11.4.2 式(11.6)的解释
11.4.3 式(11.7)的解释
11.4.4 式(11.8)的解释
11.4.5 式(11.9)的解释
11.4.6 式(11.10)的推导
11.4.7 式(11.11)的解释
11.4.8 式(11.12)的解释
11.4.9 式(11.13)的解释
11.4.10 式(11.14)的推导
11.5 稀疏表示与字典学习
11.5.1 式(11.15)的解释
11.5.2 式(11.16)的解释
11.5.3 式(11.17)的推导
11.5.4 式(11.18)的推导
K-SVD算法
11.6 压缩感知
11.6.1 式(11.21)的解释
11.6.2 式(11.25)的解释
参考文献
第12章 计算学习理论
12.1 基础知识
12.1.1 式(12.1)的解释
12.1.2 式(12.2)的解释
12.1.3 式(12.3)的解释
12.1.4 式(12.4)的解释
12.1.5 式(12.5)和式(12.6)的解释
12.1.6 式(12.7)的解释
12.2 PAC学习
12.2.1 式(12.9)的解释
12.3 有限假设空间
12.3.1 式(12.10)的解释
12.3.2 式(12.11)的解释
12.3.3 式(12.12)的推导
12.3.4 式(12.13)的解释
12.3.5 式(12.14)的推导
12.3.6 引理12.1的解释
12.3.7 式(12.18)的推导
12.3.8 式(12.19)的推导
12.3.9 式(12.20)的解释
12.4 VC维
12.4.1 式(12.21)的解释
12.4.2 式(12.22)的解释
12.4.3 式(12.23)的解释
12.4.4 引理12.2的解释
12.4.5 式(12.28)的解释
12.4.6 式(12.29)的解释
12.4.7 式(12.30)的解释
12.4.8 定理12.4的解释
12.5 Rademacher复杂度
12.5.1 式(12.36)的解释
12.5.2 式(12.37)的解释
12.5.3 式(12.38)的解释
12.5.4 式(12.39)的解释
12.5.5 式(12.40)的解释
12.5.6 式(12.41)的解释
12.5.7 定理12.5的解释
12.6 定理12.6的解释
12.6.1 式(12.52)的证明
12.6.2 式(12.53)的推导
12.7 稳 定 性
12.7.1 泛化损失/经验损失/留一损失的解释
12.7.2 式(12.57)的解释
12.7.3 定理12.8的解释
12.7.4 式(12.60)的推导
12.7.5 经验损失最小化
12.7.6 定理12.9的证明的解释
参考文献
第13章 半监督学习
13.1 未标记样本
13.2 生成式方法
13.2.1 式(13.1)的解释
13.2.2 式(13.2)的推导
13.2.3 式(13.3)的推导
13.2.4 式(13.4)的推导
13.2.5 式(13.5)的解释
13.2.6 式(13.6)的解释
13.2.7 式(13.7)的解释
13.2.8 式(13.8)的解释
13.3 半监督SVM
13.3.1 图13.3的解释
13.3.2 式(13.9)的解释
13.3.3 图13.4的解释
13.3.4 式(13.10)的解释
13.4 图半监督学习
13.4.1 式(13.12)的推导
13.4.2 式(13.13)的推导
13.4.3 式(13.14)的推导
13.4.4 式(13.15)的推导
13.4.5 式(13.16)的解释
13.4.6 式(13.17)的推导
13.4.7 式(13.18)的解释
13.4.8 式(13.20)的解释
13.4.9 式(13.21)的推导
13.5 基于分歧的方法
13.5.1 图13.6的解释
13.6 半监督聚类
13.6.1 图13.7的解释
13.6.2 图13.9的解释
参考文献
第14章 概率图模型
14.1 隐马尔可夫模型
14.1.1 生成式模型和判别式模型
14.1.2 式(14.1)的推导
14.1.3 隐马尔可夫模型的三组参数
14.2 马尔可夫随机场
14.2.1 式(14.2)和式(14.3)的解释
14.2.2 式(14.4) ~式(14.7)的推导
14.2.3 马尔可夫毯
14.2.4 势函数
14.2.5 式(14.8)的解释
14.2.6 式(14.9)的解释
14.3 条件随机场
14.3.1 式(14.10)的解释
14.3.2 式(14.11)的解释
14.4 学习与推断
14.4.1 式(14.14)的推导
14.4.2 式(14.15)和式(14.16)的推导
14.4.3 式(14.17)的解释
14.4.4 式(14.18)的推导
14.4.5 式(14.19)的解释
14.4.6 式(14.20)的解释
14.4.7 式(14.22)的推导
14.4.8 图14.8的解释
14.5 近似推断
14.5.1 式(14.21) ~式(14.25)的解释
14.5.2 式(14.26)的解释
14.5.3 式(14.27)的解释
14.5.4 式(14.28)的推导
14.5.5 吉布斯采样与MH算法
14.5.6 式(14.29)的解释
14.5.7 式(14.30)的解释
14.5.8 式(14.31)的解释
14.5.9 式(14.32) ~式(14.34)的推导
14.5.10 式(14.35)的解释
14.5.11 式(14.36)的推导
14.5.12 式(14.37)和式(14.38)的解释
14.5.13 式(14.39)的解释
14.5.14 式(14.40)的解释
14.6 话题模型
14.6.1 式(14.41)的解释
14.6.2 式(14.42)的解释
14.6.3 式(14.43)的解释
14.6.4 式(14.44)的解释
参考文献
第15章 规则学习
15.1 剪枝优化
15.1.1 式(15.2)和式(15.3)的解释
15.2 归纳逻辑程序设计
15.2.1 式(15.6)的解释
15.2.2 式(15.7)的推导
15.2.3 式(15.9)的推导
15.2.4 式(15.10)的解释
15.2.5 式(15.11)的解释
15.2.6 式(15.12)的解释
15.2.7 式(15.13)的解释
15.2.8 式(15.16)的推导
第16章 强化学习
16.1 任务与奖赏
16.2 -摇臂赌博机
16.2.1 式(16.2)和式(16.3)的推导
16.2.2 式(16.4)的解释
16.3 有模型学习
16.3.1 式(16.7)的解释
16.3.2 式(16.8)的推导
16.3.3 式(16.10)的推导
16.3.4 式(16.14)的解释
16.3.5 式(16.15)的解释
16.3.6 式(16.16)的推导
16.4 免模型学习
16.4.1 式(16.20)的解释
16.4.2 式(16.23)的解释
16.4.3 式(16.31)的推导
16.5 值函数近似
16.5.1 式(16.33)的解释
16.5.2 式(16.34)的推导
参考文献
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜