配套代码获取方式: 1、微信关注“华章计算机” 2、在后台回复关键词:67845 1、便于自学。全书包含160个图表讲解,形象生动;在1-10章的每章结尾都提供数据科学门案例,让你边学边用。易错知识有特别提示。动态可视化效果提供更好的学习反馈。 2、标识清晰。关键术语加粗显示,Python代码以特殊字体显示; 3、示例全面。包括代码段和案例研究形式的538个实操示例;
售 价:¥
纸质售价:¥110.60购买纸书
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐
审稿人评论 Reviewers’ Comments
译者序 The Translator’s Words
前言 Preface
作者简介 About the Authers
开始阅读本书之前Before you begin
第一部分 Python基础知识快速入门
第1章 Python及大数据概述
1.1 简介
1.2 快速回顾面向对象技术的基础知识
1.3 Python
1.4 Python库
1.4.1 Python标准库
1.4.2 数据科学库
1.5 试用IPython和Jupyter Notebook
1.5.1 使用IPython交互模式作为计算器
1.5.2 使用IPython解释器执行Python程序
1.5.3 在Jupyter Notebook中编写和执行代码
1.6 云和物联网
1.6.1 云
1.6.2 物联网
1.7 大数据有多大
1.7.1 大数据分析
1.7.2 数据科学和大数据正在带来改变:用例
1.8 案例研究:大数据移动应用程序
1.9 数据科学入门:人工智能—计算机科学与数据科学的交叉学科
1.10 小结
第2章 Python程序设计概述
2.1 简介
2.2 变量和赋值语句
2.3 算术运算
2.4 print函数、单引号和双引号
2.5 三引号字符串
2.6 从用户处获取输入
2.7 决策:if语句和比较运算符
2.8 对象和动态类型
2.9 数据科学入门:基础的描述性统计
2.10 小结
第3章 控制语句
3.1 简介
3.2 控制语句概述
3.3 if语句
3.4 if...else和if...elif...else语句
3.5 while语句
3.6 for语句
3.6.1 可迭代对象、列表和迭代器
3.6.2 内置函数range
3.7 增强赋值
3.8 序列控制迭代和格式化字符串
3.9 边界值控制的迭代
3.10 内置函数range:深入讨论
3.11 使用Decimal类型处理货币金额
3.12 break和continue语句
3.13 布尔运算符and、or和not
3.14 数据科学入门:集中趋势度量—均值、中值和众数
3.15 小结
第4章 函数
4.1 简介
4.2 函数定义
4.3 多参数函数
4.4 随机数生成
4.5 案例研究:一个运气游戏
4.6 Python标准库
4.7 math模块中的函数
4.8 在IPython中使用制表符自动补全
4.9 默认参数值
4.10 关键字参数
4.11 不定长参数列表
4.12 方法:属于对象的函数
4.13 作用域规则
4.14 import:深入讨论
4.15 向函数传递参数:深入讨论
4.16 递归
4.17 函数式编程
4.18 数据科学入门:离中趋势度量
4.19 小结
第5章 序列:列表和元组
5.1 简介
5.2 列表
5.3 元组
5.4 序列解包
5.5 序列切片
5.6 使用del声明
5.7 将列表传递给函数
5.8 列表排序
5.9 序列搜索
5.10 列表的其他方法
5.11 使用列表模拟堆栈
5.12 列表推导式
5.13 生成器表达式
5.14 过滤、映射和归约
5.15 其他的序列处理函数
5.16 二维列表
5.17 数据科学入门:模拟和静态可视化
5.17.1 掷600、60,000、6,000,000次骰子的图例
5.17.2 实现掷骰子中不同点数出现次数和百分比的可视化
5.18 小结
第二部分 Python数据结构、字符串和文件
第6章 字典和集合
6.1 简介
6.2 字典
6.2.1 创建字典
6.2.2 遍历字典
6.2.3 基本的字典操作
6.2.4 字典的keys和values方法
6.2.5 字典的比较
6.2.6 示例:学生成绩字典
6.2.7 示例:单词计数
6.2.8 字典的update方法
6.2.9 字典推导式
6.3 集合
6.3.1 集合的比较
6.3.2 集合的数学运算
6.3.3 集合的可变运算符和方法
6.3.4 集合推导式
6.4 数据科学入门:动态可视化
6.4.1 动态可视化的工作原理
6.4.2 实现动态可视化
6.5 小结
第7章 使用NumPy进行面向数组的编程
7.1 简介
7.2 从现有数据创建数组
7.3 数组属性
7.4 用特定值填充数组
7.5 从范围创建数组
7.6 列表与数组的性能比较:引入%timeit
7.7 数组运算符
7.8 NumPy计算方法
7.9 通用函数
7.10 索引和切片
7.11 视图:浅拷贝
7.12 视图:深拷贝
7.13 重塑和转置
7.14 数据科学入门:pandas Series和DataFrame
7.14.1 Series
7.14.2 DataFrame
7.15 小结
第8章 字符串:深入讨论
8.1 简介
8.2 格式化字符串
8.2.1 表示类型
8.2.2 字段宽度和对齐方式
8.2.3 数字格式化
8.2.4 字符串的format方法
8.3 拼接和重复字符串
8.4 去除字符串中的空白字符
8.5 字符大小写转换
8.6 字符串的比较运算符
8.7 查找子字符串
8.8 替换子字符串
8.9 字符串拆分和连接
8.10 字符串测试方法
8.11 原始字符串
8.12 正则表达式介绍
8.12.1 re模块与fullmatch函数
8.12.2 替换子字符串和拆分字符串
8.12.3 其他搜索功能、访问匹配
8.13 数据科学入门:pandas、正则表达式和数据治理
8.14 小结
第9章 文件和异常
9.1 简介
9.2 文件
9.3 文本文件处理
9.3.1 向文本文件中写入数据:with语句的介绍
9.3.2 从文本文件中读取数据
9.4 更新文本文件
9.5 使用JSON进行序列化
9.6 关注安全:pickle序列化和反序列化
9.7 关于文件的附加说明
9.8 处理异常
9.8.1 被零除和无效输入
9.8.2 try语句
9.8.3 在一条except子句中捕获多个异常
9.8.4 一个函数或方法引发了什么异常
9.8.5 try子句的语句序列中应该书写什么代码
9.9 finally子句
9.10 显式地引发一个异常
9.11 (选学)堆栈展开和回溯
9.12 数据科学入门:使用CSV文件
9.12.1 Python标准库模块csv
9.12.2 将CSV文件数据读入pandas DataFrame中
9.12.3 读取泰坦尼克号灾难数据集
9.12.4 用泰坦尼克号灾难数据集做简单的数据分析
9.12.5 乘客年龄直方图
9.13 小结
第三部分 Python高级主题
第10章 面向对象编程
10.1 简介
10.2 自定义Account类
10.2.1 试用Account类
10.2.2 Account类的定义
10.2.3 组合:对象引用作为类的成员
10.3 属性访问控制
10.4 用于数据访问的property
10.4.1 试用Time类
10.4.2 Time类的定义
10.4.3 Time类定义的设计说明
10.5 模拟“私有”属性
10.6 案例研究:洗牌和分牌模拟
10.6.1 试用Card类和DeckOfCards类
10.6.2 Card类:引入类属性
10.6.3 DeckOfCards类
10.6.4 利用Matplotlib显示扑克牌图像
10.7 继承:基类和子类
10.8 构建继承层次结构:引入多态性
10.8.1 基类CommissionEmployee
10.8.2 子类SalariedCommissionEmployee
10.8.3 以多态方式处理CommissionEmployee和SalariedCommissionEmployee
10.8.4 关于基于对象和面向对象编程的说明
10.9 鸭子类型和多态性
10.10 运算符重载
10.10.1 试用Complex类
10.10.2 Complex类的定义
10.11 异常类层次结构和自定义异常
10.12 具名元组
10.13 Python 3.7的新数据类简介
10.13.1 创建Card数据类
10.13.2 使用Card数据类
10.13.3 数据类相对于具名元组的优势
10.13.4 数据类相对于传统类的优势
10.14 使用文档字符串和doctest进行单元测试
10.15 命名空间和作用域
10.16 数据科学入门:时间序列和简单线性回归
10.17 小结
第四部分 人工智能、云和大数据案例研究
第11章 自然语言处理
11.1 简介
11.2 TextBlob
11.2.1 创建一个TextBlob对象
11.2.2 将文本标记为句子和单词
11.2.3 词性标注
11.2.4 提取名词短语
11.2.5 使用TextBlob的默认情感分析器进行情感分析
11.2.6 使用NaiveBayesAnalyzer进行情感分析
11.2.7 语言检测与翻译
11.2.8 变形:复数化和单数化
11.2.9 拼写检查和拼写校正
11.2.10 规范化:词干提取和词形还原
11.2.11 词频
11.2.12 从WordNet中获取单词定义、同义词和反义词
11.2.13 删除停用词
11.2.14 n元
11.3 使用柱状图和词云可视化词频
11.3.1 使用pandas可视化词频
11.3.2 使用词云可视化词频
11.4 使用Textatistic库进行可读性评估
11.5 使用spaCy命名实体识别
11.6 使用spaCy进行相似性检测
11.7 其他NLP库和工具
11.8 机器学习和深度学习自然语言应用
11.9 自然语言数据集
11.10 小结
第12章 Twitter数据挖掘
12.1 简介
12.2 Twitter API概况
12.3 创建一个Twitter账户
12.4 获取Twitter凭据,创建应用程序
12.5 什么是推文
12.6 Tweepy
12.7 通过Tweepy进行Twitter身份验证
12.8 获取一个Twitter账户的相关信息
12.9 Tweepy Cursor简介:获得一个账户的关注者和朋友
12.9.1 确定一个账户的关注者
12.9.2 确定一个账户的关注对象
12.9.3 获取一个用户的最新推文
12.10 搜索最新的推文
12.11 热门话题发现:Twitter热门话题API
12.11.1 有热门话题的地点
12.11.2 获取热门话题列表
12.11.3 根据热门话题创建词云
12.12 推文分析前的清理或预处理
12.13 Twitter流API
12.13.1 创建StreamListener的子类
12.13.2 启动流处理
12.14 推文情感分析
12.15 地理编码和映射
12.15.1 获取和映射推文
12.15.2 tweetutilities.py中的实用函数
12.15.3 LocationListener类
12.16 存储推文的方法
12.17 Twitter和时间序列
12.18 小结
第13章 IBM Watson和认知计算
13.1 简介
13.2 IBM云账户和云控制台
13.3 Watson服务
13.4 额外的服务和工具
13.5 Watson开发者云Python SDK
13.6 案例研究:旅行者翻译伴侣APP
13.6.1 准备工作
13.6.2 运行APP
13.6.3 SimpleLanguageTranslator.py脚本代码分析
13.7 Watson资源
13.8 小结
第14章 机器学习:分类、回归和聚类
14.1 简介
14.1.1 scikit-learn
14.1.2 机器学习的类别
14.1.3 scikit-learn中内置的数据集
14.1.4 典型的数据科学研究的步骤
14.2 案例研究:用k近邻算法和Digits数据集进行分类(第1部分)
14.2.1 k近邻算法
14.2.2 加载数据集
14.2.3 可视化数据
14.2.4 拆分数据以进行训练和测试
14.2.5 创建模型
14.2.6 训练模型
14.2.7 预测数字类别
14.3 案例研究:利用k近邻算法和Digits数据集进行分类(第2部分)
14.3.1 模型准确性指标
14.3.2 k折交叉验证
14.3.3 运行多个模型以找到最佳模型
14.3.4 超参数调整
14.4 案例研究:时间序列和简单线性回归
14.5 案例研究:基于加利福尼亚房价数据集的多元线性回归
14.5.1 加载数据集
14.5.2 使用pandas探索数据
14.5.3 可视化特征
14.5.4 拆分数据以进行训练和测试
14.5.5 训练模型
14.5.6 测试模型
14.5.7 可视化预测房价和期望房价
14.5.8 回归模型指标
14.5.9 选择最佳模型
14.6 案例研究:无监督学习(第1部分)—降维
14.7 案例研究:无监督学习(第2部分)—k均值聚类
14.7.1 加载Iris数据集
14.7.2 探索Iris数据集:使用pandas进行描述性统计
14.7.3 使用Seaborn的pairplot可视化数据集
14.7.4 使用KMeans估计器
14.7.5 主成分分析降维
14.7.6 选择最佳聚类估计器
14.8 小结
第15章 深度学习
15.1 简介
15.1.1 深度学习应用
15.1.2 深度学习演示
15.1.3 Keras资源
15.2 Keras内置数据集
15.3 自定义Anaconda环境
15.4 神经网络
15.5 张量
15.6 用于视觉的卷积神经网络:使用MNIST数据集进行多分类
15.6.1 加载MNIST数据集
15.6.2 数据探索
15.6.3 数据准备
15.6.4 创建神经网络模型
15.6.5 训练和评价模型
15.6.6 保存和加载模型
15.7 用TensorBoard可视化神经网络的训练过程
15.8 ConvnetJS:基于浏览器的深度学习训练和可视化
15.9 针对序列的递归神经网络:使用IMDb数据集进行情感分析
15.9.1 加载IMDb影评数据集
15.9.2 数据探索
15.9.3 数据准备
15.9.4 创建神经网络
15.9.5 训练和评价模型
15.10 调整深度学习模型
15.11 在ImageNet上预训练的CNN模型
15.12 小结
第16章 大数据:Hadoop、Spark、NoSQL和IoT
16.1 简介
16.2 关系数据库和结构化查询语言
16.2.1 books数据库
16.2.2 SELECT查询
16.2.3 WHERE子句
16.2.4 ORDER BY子句
16.2.5 从多个表中合并数据:INNER JOIN
16.2.6 INSERT INTO语句
16.2.7 UPDATE语句
16.2.8 DELETE FROM语句
16.3 NoSQL和NewSQL大数据数据库简述
16.3.1 NoSQL键-值数据库
16.3.2 NoSQL文档数据库
16.3.3 NoSQL列式数据库
16.3.4 NoSQL图数据库
16.3.5 NewSQL数据库
16.4 案例研究:MongoDB JSON文档数据库
16.4.1 创建MongoDB Atlas集群
16.4.2 将推文存入MongoDB中
16.5 Hadoop
16.5.1 概述
16.5.2 通过MapReduce汇总RomeoAndJuliet.txt中的单词长度
16.5.3 在Microsoft Azure HDInsight中创建Apache Hadoop集群
16.5.4 Hadoop流
16.5.5 实现映射器
16.5.6 实现归约器
16.5.7 准备运行MapReduce示例
16.5.8 运行MapReduce作业
16.6 Spark
16.6.1 概述
16.6.2 Docker和Jupyter Docker堆栈
16.6.3 使用Spark的单词计数
16.6.4 Microsoft Azure上的Spark单词计数
16.7 Spark流:使用pyspark-notebook Docker堆栈计算Twitter主题标签
16.7.1 将推文流式传输到套接字
16.7.2 总结推文主题标签,介绍Spark SQL
16.8 物联网和仪表板
16.8.1 发布和订阅
16.8.2 使用Freeboard仪表板可视化PubNub示例实时流
16.8.3 用Python模拟一个连接互联网的恒温器
16.8.4 使用freeboard.io创建仪表板
16.8.5 创建一个Python PubNub订阅服务器
16.9 小结
索引
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜