万本电子书0元读

万本电子书0元读

顶部广告

精通特征工程电子书 租阅

特征工程是机器学习流程中至关重要的一个环节,然而专门讨论这个话题的著作却很少。本书旨在填补这一空白,着重阐明特征工程的基本原则,介绍大量特征工程技术,教你从原始数据中提取出正确的特征并将其转换为适合机器学习模型的格式,从而轻松构建模型,增强机器学习算法的效果。 然而,本书并非单纯地讲述特征工程的基本原则,而是通过大量示例和练习将重放在了实际应用上。每一章都集中研究一个数据问题:如何表示文本数据或图像数据,如何为自动生成的特征降低维度,何时以及如何对特征行标准化,等等。*后一章通过一个完整的例子演示了多种特征工程技术的实际应用。书中所有代码示例均是用Python编写的,涉及NumPy、Pandas、scikit-learn和Matplotlib等程序包。

售       价:¥

纸质售价:¥46.60购买纸书

228人正在读 | 1人评论 6.2

作       者:(美)爱丽丝·郑(Alice Zheng) 阿曼达·卡萨丽(Amanda Casari)

出  版  社:人民邮电出版社有限公司

出版时间:2019-04-01

字       数:14.6万

所属分类: 科技 > 计算机/网络 > 程序设计

温馨提示:此类商品不支持退换货,不支持下载打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(1条)
  • 读书简介
  • 目录
  • 累计评论(1条)
本书介绍大量特征工程技术,阐明特征工程的基本原则。主要内容包括:机器学习流程中 的基本概念,数值型数据的基础特征工程,自然文本的特征工程,词频- 逆文档频率,高效的分类变量编码技术,主成分分析,模型堆叠,图像处理,等等。 本书介绍大量特征工程技术,阐明特征工程的基本原则。主要内容包括:机器学习流程中 的基本概念,数值型数据的基础特征工程,自然文本的特征工程,词频- 逆文档频率,高效的分类变量编码技术,主成分分析,模型堆叠,图像处理,等等。
【推荐语】
特征工程是机器学习流程中至关重要的一个环节,然而专门讨论这个话题的著作却很少。本书旨在填补这一空白,着重阐明特征工程的基本原则,介绍大量特征工程技术,教你从原始数据中提取出正确的特征并将其转换为适合机器学习模型的格式,从而轻松构建模型,增强机器学习算法的效果。 然而,本书并非单纯地讲述特征工程的基本原则,而是通过大量示例和练习将重放在了实际应用上。每一章都集中研究一个数据问题:如何表示文本数据或图像数据,如何为自动生成的特征降低维度,何时以及如何对特征行标准化,等等。*后一章通过一个完整的例子演示了多种特征工程技术的实际应用。书中所有代码示例均是用Python编写的,涉及NumPy、Pandas、scikit-learn和Matplotlib等程序包。 - 数值型数据的特征工程:过滤、分箱、缩放、对数变换和指数变换 - 自然文本技术:词袋、n元词与短语检测 - 基于频率的过滤和特征缩放 - 分类变量编码技术:特征散列化与分箱计数 - 使用主成分分析的基于模型的特征工程 - 模型堆叠与k-均值特征化 - 图像特征提取:人工提取与深度学习
【作者】
爱丽丝·郑(Alice Zheng) 亚马逊广告平台建模和优化团队负责人,应用机器学习、生成算法和平台发领域的技术领dao者,前微软研究院机器学习研究员。 阿曼达·卡萨丽(Amanda Casari) 谷歌云发者关系工程经理,曾是Concur Labs的产品经理和数据科学家,在数据科学、机器学习、复杂系统和机器人等多个领域都有丰富经验。
目录展开

版权声明

O'Reilly Media, Inc. 介绍

前言

使用示例代码

O'Reilly Safari

联系我们

致谢

电子书

第 1 章 机器学习流程

1.1 数据

1.2 任务

1.3 模型

1.4 特征

1.5 模型评价

第 2 章 简单而又奇妙的数值

2.1 标量、向量和空间

2.2 处理计数

2.3 对数变换

2.4 特征缩放/归一化

2.5 交互特征

2.6 特征选择

2.7 小结

2.8 参考文献

第 3 章 文本数据:扁平化、过滤和分块

3.1 元素袋:将自然文本转换为扁平向量

3.2 使用过滤获取清洁特征

3.3 意义的单位:从单词、元词到短语

3.4 小结

3.5 参考文献

第 4 章 特征缩放的效果:从词袋到 tf-idf

4.1 tf-idf:词袋的一种简单扩展

4.2 tf-idf方法测试

4.3 深入研究:发生了什么

4.4 小结

4.5 参考文献

第 5 章 分类变量:自动化时代的数据计数

5.1 分类变量的编码

5.2 处理大型分类变量

5.3 小结

5.4 参考文献

第 6 章 数据降维:使用PCA挤压数据

6.1 直观理解

6.2 数学推导

6.3 PCA实战

6.4 白化与ZCA

6.5 PCA的局限性与注意事项

6.6 用例

6.7 小结

6.8 参考文献

第 7 章 非线性特征化与-均值模型堆叠

7.1 -均值聚类

7.2 使用聚类进行曲面拼接

7.3 用于分类问题的-均值特征化

7.4 优点、缺点以及陷阱

7.5 小结

7.6 参考文献

第 8 章 自动特征生成:图像特征提取和深度学习

8.1 最简单的图像特征(以及它们因何失效)

8.2 人工特征提取:SIFT和HOG

8.3 通过深度神经网络学习图像特征

8.4 小结

8.5 参考文献

第 9 章 回到特征:建立学术论文推荐器

9.1 基于项目的协同过滤

9.2 第一关:数据导入、清理和特征解析

9.3 第二关:更多特征工程和更智能的模型

9.4 第三关:更多特征=更多信息

9.5 小结

9.6 参考文献

附录 A 线性建模与线性代数基础

A.1 线性分类概述

A.2 矩阵的解析

A.3 线性系统求解

A.4 参考文献

作者简介

封面简介

看完了

累计评论(1条) 3个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部