当当云阅读 > 科技 > 计算机/网络 > 程序设计 > Python数据挖掘入门与实践

Python数据挖掘入门与实践电子书

在数据规模急速膨胀的大数据时代，数据挖掘这项甄别重要数据的核心技术正发挥越来越重要的作用。它将赋予你解决实际问题的“超能力”：预测体育赛事结果、投放广告、根据作品的风格解决作者归属问题，等等。本书使用简单易学且拥有丰富第三方库和良好社区氛围的Python语言，由浅深，以真实数据作为研究对象，真刀实枪地向读者介绍Python数据挖掘的实现方法。通过本书，读者将迈数据挖掘的殿堂，透彻理解数据挖掘基础知识，掌握解决数据挖掘实际问题的杰出实践！

售价：¥

纸质售价：¥43.90购买纸书

271人正在读 | 0人评论

6.2

作者：Robert Layton

出版社：人民邮电出版社

出版时间：2016-07-01

字数：22.9万

所属分类：科技 > 计算机/网络 > 程序设计

温馨提示：数字商品不支持退换货，不提供源文件，不支持导出打印

为你推荐

读书简介
目录
累计评论(0条)

读书简介
目录
累计评论(0条)

本书作为数据挖掘门读物，介绍了数据挖掘的基础知识、基本工具和实践方法，通过循序渐地讲解算法，带你轻松踏上数据挖掘之旅。本书采用理论与实践相结合的方式，呈现了如何使用决策树和*森林算法预测美国职业篮球联赛比赛结果，如何使用亲和性分析方法推荐电影，如何使用朴素贝叶斯算法行社会媒体挖掘，等等。本书也涉及神经网络、深度学习、大数据处理等内容。本书面向愿意学习和尝试数据挖掘的程序员。 【推荐语】 在数据规模急速膨胀的大数据时代，数据挖掘这项甄别重要数据的核心技术正发挥越来越重要的作用。它将赋予你解决实际问题的“超能力”：预测体育赛事结果、投放广告、根据作品的风格解决作者归属问题，等等。本书使用简单易学且拥有丰富第三方库和良好社区氛围的Python语言，由浅深，以真实数据作为研究对象，真刀实枪地向读者介绍Python数据挖掘的实现方法。通过本书，读者将迈数据挖掘的殿堂，透彻理解数据挖掘基础知识，掌握解决数据挖掘实际问题的杰出实践！ 【作者】 Robert Layton，计算机科学博士，网络犯罪问题和文本分析方面的专家。多年来一直热衷于Python编程，参与过scikit-learn库等很多源库的发，曾担任2014年度“谷歌编程之夏”项目导师。他曾与全球几大数据挖掘公司密切合作，挖掘真实数据并研发相关应用。他的公司dataPipeline为多个行业提供数据挖掘和数据分析解决方案。

目录展开

译者序

前言

本书主要内容

本书的阅读前提

本书的目标读者

排版约定

客户支持

下载示例代码

下载配套PDF文件

勘误表

侵权

问题

第1章开始数据挖掘之旅

1.1 数据挖掘简介

1.2 使用Python和IPython Notebook

1.2.1 安装Python

1.2.2 安装IPython

1.2.3 安装scikit-learn库

1.3 亲和性分析示例

1.3.1 什么是亲和性分析

1.3.2 商品推荐

1.3.3 在NumPy中加载数据集

1.3.4 实现简单的排序规则

1.3.5 排序找出最佳规则

1.4 分类问题的简单示例

1.5 什么是分类

1.5.1 准备数据集

1.5.2 实现OneR算法

1.5.3 测试算法

1.6 小结

第2章用scikit-learn估计器分类

2.1 scikit-learn估计器

2.1.1 近邻算法

2.1.2 距离度量

2.1.3 加载数据集

2.1.4 努力实现流程标准化

2.1.5 运行算法

2.1.6 设置参数

2.2 流水线在预处理中的应用

2.2.1 预处理示例

2.2.2 标准预处理

2.2.3 组装起来

2.3 流水线

2.4 小结

第3章用决策树预测获胜球队

3.1 加载数据集

3.1.1 采集数据

3.1.2 用pandas加载数据集

3.1.3 数据集清洗

3.1.4 提取新特征

3.2 决策树

3.2.1 决策树中的参数

3.2.2 使用决策树

3.3 NBA比赛结果预测

组装起来

3.4 随机森林

3.4.1 决策树的集成效果如何

3.4.2 随机森林算法的参数

3.4.3 使用随机森林算法

3.4.4 创建新特征

3.5 小结

第4章用亲和性分析方法推荐电影

4.1 亲和性分析

4.1.1 亲和性分析算法

4.1.2 选择参数

4.2 电影推荐问题

4.2.1 获取数据集

4.2.2 用pandas加载数据

4.2.3 稀疏数据格式

4.3 Apriori算法的实现

4.3.1 Apriori算法

4.3.2 实现

4.4 抽取关联规则

评估

4.5 小结

第5章用转换器抽取特征

5.1 特征抽取

5.1.1 在模型中表示事实

5.1.2 通用的特征创建模式

5.1.3 创建好的特征

5.2 特征选择

选择最佳特征

5.3 创建特征

主成分分析

5.4 创建自己的转换器

5.4.1 转换器API

5.4.2 实现细节

5.4.3 单元测试

5.4.4 组装起来

5.5 小结

第6章使用朴素贝叶斯进行社会媒体挖掘

6.1 消歧

6.1.1 从社交网站下载数据

6.1.2 加载数据集并对其分类

6.1.3 Twitter数据集重建

6.2 文本转换器

6.2.1 词袋

6.2.2 N元语法

6.2.3 其他特征

6.3 朴素贝叶斯

6.3.1 贝叶斯定理

6.3.2 朴素贝叶斯算法

6.3.3 算法应用示例

6.4 应用

6.4.1 抽取特征

6.4.2 将字典转换为矩阵

6.4.3 训练朴素贝叶斯分类器

6.4.4 组装起来

6.4.5 用F1值评估

6.4.6 从模型中获取更多有用的特征

6.5 小结

第7章用图挖掘找到感兴趣的人

7.1 加载数据集

7.1.1 用现有模型进行分类

7.1.2 获取Twitter好友信息

7.1.3 构建网络

7.1.4 创建图

7.1.5 创建用户相似度图

7.2 寻找子图

7.2.1 连通分支

7.2.2 优化参数选取准则

7.3 小结

第8章用神经网络破解验证码

8.1 人工神经网络

神经网络简介

8.2 创建数据集

8.2.1 绘制验证码

8.2.2 将图像切分为单个的字母

8.2.3 创建训练集

8.2.4 根据抽取方法调整训练数据集

8.3 训练和分类

8.3.1 反向传播算法

8.3.2 预测单词

8.4 用词典提升正确率

8.4.1 寻找最相似的单词

8.4.2 组装起来

8.5 小结

第9章作者归属问题

9.1 为作品找作者

9.1.1 相关应用和使用场景

9.1.2 作者归属

9.1.3 获取数据

9.2 功能词

9.2.1 统计功能词

9.2.2 用功能词进行分类

9.3 支持向量机

9.3.1 用SVM分类

9.3.2 内核

9.4 字符N元语法

抽取字符N元语法

9.5 使用安然公司数据集

9.5.1 获取安然数据集

9.5.2 创建数据集加载工具

9.5.3 组装起来

9.5.4 评估

9.6 小结

第10章新闻语料分类

10.1 获取新闻文章

10.1.1 使用Web API获取数据

10.1.2 数据资源宝库reddit

10.1.3 获取数据

10.2 从任意网站抽取文本

10.2.1 寻找任意网站网页中的主要内容

10.2.2 组装起来

10.3 新闻语料聚类

10.3.1 k-means算法

10.3.2 评估结果

10.3.3 从簇中抽取主题信息

10.3.4 用聚类算法做转换器

10.4 聚类融合

10.4.1 证据累积

10.4.2 工作原理

10.4.3 实现

10.5 线上学习

10.5.1 线上学习简介

10.5.2 实现

10.6 小结

第11章用深度学习方法为图像中的物体进行分类

11.1 物体分类

11.2 应用场景和目标

使用场景

11.3 深度神经网络

11.3.1 直观感受

11.3.2 实现

11.3.3 Theano简介

11.3.4 Lasagne简介

11.3.5 用nolearn实现神经网络

11.4 GPU优化

11.4.1 什么时候使用GPU进行计算

11.4.2 用GPU运行代码

11.5 环境搭建

11.6 应用

11.6.1 获取数据

11.6.2 创建神经网络

11.6.3 组装起来

11.7 小结

第12章大数据处理

12.1 大数据

12.2 大数据应用场景和目标

12.3 MapReduce

12.3.1 直观理解

12.3.2 单词统计示例

12.3.3 Hadoop MapReduce

12.4 应用

12.4.1 获取数据

12.4.2 朴素贝叶斯预测

12.5 小结

附录接下来的方向

第1章——开始数据挖掘之旅

Scikit-learn教程

扩展IPython Notebook

第2章——用scikit-learn估计器分类

k近邻算法的扩展

更多复杂的流水线

比较分类器

第3章——用决策树预测获胜球队

pandas的更多内容

更多复杂特征

第4章——用亲和性分析方法推荐电影

新数据集

Eclat算法

第5章——用转换器抽取特征

增加噪音

Vowpal Wabbit

第6章——使用朴素贝叶斯进行社会媒体挖掘3

垃圾信息监测

自然语言处理和词性标注

第7章——用图挖掘找到感兴趣的人

更复杂的算法

NetworkX

第8章——用神经网络破解验证码

好（坏？）验证码

深度网络

增强学习

第9章——作者归属问题

增加数据量

博客语料

局部N元语法

第10章——新闻语料分类

算法评价

近期趋势分析

实时聚类

第11章——用深度学习方法为图像中的物体进行分类

Keras和Pylearn2

Mahotas

第12章——大数据处理

Hadoop课程

Pydoop

推荐引擎

更多资源

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论，分享你的想法吧！

发表评论

买过这本书的人还买过

读了这本书的人还在读

支持设备

图解Skill:AI提效实战指南￥39.90

宝玉著

￥39.90

Python从入门到全栈开发￥70.00

钱超

￥70.00

大模型应用开发动手做AI Agent ￥57.47

黄佳著

￥57.47

Python网络爬虫与数据分析从入门到实践￥55.86

马国俊

￥55.86

Python编程:从入门到实践(第3版) ￥54.90

[美]埃里克·马瑟斯(Eric Matthes) 著

￥54.90

程序员必会的40种算法￥59.40

(加)伊姆兰·艾哈迈德(Imran Ahmad)

￥59.40

懒人“养虾”攻略:OpenClaw+豆包+扣子+飞书落地实战指南￥45.00

林园编著

￥45.00

量化投资：策略与技术￥22.00

丁鹏

￥22.00

Python完全自学教程￥57.54

明日科技编著

￥57.54

Python+Office:轻松实现Python办公自动化￥55.30

王国平

￥55.30

更多同类图书 >

Python数据挖掘入门与实践电子书

支持设备

图解Skill:AI提效实战指南 ￥39.90

Python从入门到全栈开发 ￥70.00

大模型应用开发 动手做AI Agent ￥57.47

Python网络爬虫与数据分析从入门到实践 ￥55.86

Python编程:从入门到实践(第3版) ￥54.90

程序员必会的40种算法 ￥59.40

懒人“养虾”攻略:OpenClaw+豆包+扣子+飞书 落地实战指南 ￥45.00

量化投资：策略与技术 ￥22.00

Python完全自学教程 ￥57.54

Python+Office:轻松实现Python办公自动化 ￥55.30

当当云阅读