特征工程是机器学习流程中至关重要的一个环节,然而专门讨论这个话题的著作却很少。本书旨在填补这一空白,着重阐明特征工程的基本原则,介绍大量特征工程技术,教你从原始数据中提取出正确的特征并将其转换为适合机器学习模型的格式,从而轻松构建模型,增强机器学习算法的效果。 然而,本书并非单纯地讲述特征工程的基本原则,而是通过大量示例和练习将重放在了实际应用上。每一章都集中研究一个数据问题:如何表示文本数据或图像数据,如何为自动生成的特征降低维度,何时以及如何对特征行标准化,等等。*后一章通过一个完整的例子演示了多种特征工程技术的实际应用。书中所有代码示例均是用Python编写的,涉及NumPy、Pandas、scikit-learn和Matplotlib等程序包。
售 价:¥
纸质售价:¥38.40购买纸书
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐
版权声明
O'Reilly Media, Inc. 介绍
前言
使用示例代码
O'Reilly Safari
联系我们
致谢
电子书
第 1 章 机器学习流程
1.1 数据
1.2 任务
1.3 模型
1.4 特征
1.5 模型评价
第 2 章 简单而又奇妙的数值
2.1 标量、向量和空间
2.2 处理计数
2.3 对数变换
2.4 特征缩放/归一化
2.5 交互特征
2.6 特征选择
2.7 小结
2.8 参考文献
第 3 章 文本数据:扁平化、过滤和分块
3.1 元素袋:将自然文本转换为扁平向量
3.2 使用过滤获取清洁特征
3.3 意义的单位:从单词、元词到短语
3.4 小结
3.5 参考文献
第 4 章 特征缩放的效果:从词袋到 tf-idf
4.1 tf-idf:词袋的一种简单扩展
4.2 tf-idf方法测试
4.3 深入研究:发生了什么
4.4 小结
4.5 参考文献
第 5 章 分类变量:自动化时代的数据计数
5.1 分类变量的编码
5.2 处理大型分类变量
5.3 小结
5.4 参考文献
第 6 章 数据降维:使用PCA挤压数据
6.1 直观理解
6.2 数学推导
6.3 PCA实战
6.4 白化与ZCA
6.5 PCA的局限性与注意事项
6.6 用例
6.7 小结
6.8 参考文献
第 7 章 非线性特征化与-均值模型堆叠
7.1 -均值聚类
7.2 使用聚类进行曲面拼接
7.3 用于分类问题的-均值特征化
7.4 优点、缺点以及陷阱
7.5 小结
7.6 参考文献
第 8 章 自动特征生成:图像特征提取和深度学习
8.1 最简单的图像特征(以及它们因何失效)
8.2 人工特征提取:SIFT和HOG
8.3 通过深度神经网络学习图像特征
8.4 小结
8.5 参考文献
第 9 章 回到特征:建立学术论文推荐器
9.1 基于项目的协同过滤
9.2 第一关:数据导入、清理和特征解析
9.3 第二关:更多特征工程和更智能的模型
9.4 第三关:更多特征=更多信息
9.5 小结
9.6 参考文献
附录 A 线性建模与线性代数基础
A.1 线性分类概述
A.2 矩阵的解析
A.3 线性系统求解
A.4 参考文献
作者简介
封面简介
看完了
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜