机器学习算法竞赛实战电子书

深刻剖析Kaggle、阿里天池、腾讯广告算法大赛等算法竞赛内容，结合多个领域模块行实战讲解；《计算广告》作者刘鹏、《深度学习推荐系统》作者王喆等倾力推荐！ 1.多年实战经验汇集作者在众多竞赛平台多次获得好成绩，本书汇集了他们在竞赛圈多年的实战经验。 2.基本理论与竞赛技巧结合本书系统的介绍了算法竞赛，包括算法竞赛的基本理论知识以及竞赛中的上分思路和技巧。

售价：¥

纸质售价：¥49.90购买纸书

138人正在读 | 0人评论

6.2

作者：王贺刘鹏钱乾著

出版社：人民邮电出版社有限公司

出版时间：2021-09-01

字数：27.7万

所属分类：科技 > 计算机/网络 > 程序设计

温馨提示：数字商品不支持退换货，不提供源文件，不支持导出打印

为你推荐

读书简介
目录
累计评论(0条)

读书简介
目录
累计评论(0条)

本书是算法竞赛领域一本系统介绍竞赛的图书，书中不仅包含竞赛的基本理论知识，还结合多个方向和案例详细阐述了竞赛中的上分思路和技巧。全书分为五部分：部分以算法竞赛的通用流程为主，介绍竞赛中各个部分的核心内容和具体工作；第二部分介绍了用户画像相关的问题；第三部分以时间序列预测问题为主，先讲述这类问题的常见解题思路和技巧，然后分析天池平台的全球城市计算AI 挑战赛和 Kaggle 平台的Corporación Favorita Grocery Sales Forecasting；第四部分主要介绍计算广告的核心技术和业务，包括广告召回、广告排序和广告竞价，其中两个实战案例是2018 腾讯广告算法大赛——相似人群拓展和Kaggle 平台的TalkingData AdTracking Fraud Detection Challenge；第五部分基于自然语言处理相关的内容行讲解，其中实战案例是Kaggle 平台上的经典竞赛Quora Question Pairs。本书适合从事机器学习、数据挖掘和人工智能相关算法岗位的人阅读。 【推荐语】 深刻剖析Kaggle、阿里天池、腾讯广告算法大赛等算法竞赛内容，结合多个领域模块行实战讲解；《计算广告》作者刘鹏、《深度学习推荐系统》作者王喆等倾力推荐！ 1.多年实战经验汇集作者在众多竞赛平台多次获得好成绩，本书汇集了他们在竞赛圈多年的实战经验。 2.基本理论与竞赛技巧结合本书系统的介绍了算法竞赛，包括算法竞赛的基本理论知识以及竞赛中的上分思路和技巧。 3.众多竞赛选手参与结合国内多名竞赛选手建议，对本书结构行细致编排，结合多个领域模块行实战讲解，剖析竞赛本质的内容。 4.提供完整数据与代码本书将会源大量的获奖竞赛完整数据与代码，供读者快速上手掌握常见的实践方法与竞赛技巧。 【作者】 王贺（鱼遇雨欲语与余）毕业于武汉大学计算机学院，硕士学位，研究方向为图数据挖掘，现任职于小米商业算法部，从事应用商店广告推荐的研究和发。是2019年和2020年腾讯广告算法大赛的冠军，从2018年至2020年多次参加国内外算法竞赛，共获得五次冠军和五次亚军。刘鹏 2016年本科毕业于武汉大学数学基地班，保研至中国科学技术大学自动化系，硕士期间研究方向为复杂网络与机器学习，2018年起多次获得机器学习相关竞赛奖项，2019年至今就职于华为技术有限公司，任算法工程师。钱乾本科就读于美国佐治亚理工大学，研究方向包括机器学习、深度学习、自然语言处理等，现就职于数程科技，工作方向为物流领域的智能算法应用，任大数据技术负责人。

目录展开

前言

算法竞赛时代

本书缘起

本书特色

本书的读者对象

欢迎交流

致谢

第一部分磨刀事半，砍柴功倍

第 1 章初见竞赛

1.1 竞赛平台

1.1.1 Kaggle

1.1.2 天池

1.1.3 DF

1.1.4 DC

1.1.5 Kesci

1.1.6 JDATA

1.1.7 企业网站

1.2 竞赛流程

1.2.1 问题建模

1.2.2 数据探索

1.2.3 特征工程

1.2.4 模型训练

1.2.5 模型融合

1.3 竞赛类型

1.3.1 数据类型

1.3.2 任务类型

1.3.3 应用场景

1.4 思考练习

第 2 章问题建模

2.1 赛题理解

2.1.1 业务背景

2.1.2 数据理解

2.1.3 评价指标

2.2 样本选择

2.2.1 主要原因

2.2.2 准确方法

2.2.3 应用场景

2.3 线下评估策略

2.3.1 强时序性问题

2.3.2 弱时序性问题

2.4 实战案例

2.4.1 赛题理解

2.4.2 线下验证

2.5 思考练习

第 3 章数据探索

3.1 数据初探

3.1.1 分析思路

3.1.2 分析方法

3.1.3 明确目的

3.2 变量分析

3.2.1 单变量分析

3.2.2 多变量分析

3.3 模型分析

3.3.1 学习曲线

3.3.2 特征重要性分析

3.3.3 误差分析

3.4 思考练习

第 4 章特征工程

4.1 数据预处理

4.1.1 缺失值处理

4.1.2 异常值处理

4.1.3 优化内存

4.2 特征变换

4.2.1 连续变量无量纲化

4.2.2 连续变量数据变换

4.2.3 类别特征转换

4.2.4 不规则特征变换

4.3 特征提取

4.3.1 类别相关的统计特征

4.3.2 数值相关的统计特征

4.3.3 时间特征

4.3.4 多值特征

4.4 特征选择

4.4.1 特征关联性分析

4.4.2 特征重要性分析

4.4.3 封装方法

4.5 实战案例

4.5.1 数据预处理

4.5.2 特征提取

4.5.3 特征选择

4.6 思考练习

第 5 章模型训练

5.1 线性模型

5.1.1 Lasso 归

5.1.2 Ridge 归

5.2 树模型

5.2.1 随机森林

5.2.2 梯度提升树

5.2.3 XGBoost

5.2.4 LightGBM

5.2.5 CatBoost

5.2.6 模型深入对比

5.3 神经网络

5.3.1 多层感知机

5.3.2 卷积神经网络

5.3.3 循环神经网络

5.4 实战案例

5.5 思考练习

第 6 章模型融合

6.1 构建多样性

6.1.1 特征多样性

6.1.2 样本多样性

6.1.3 模型多样性

6.2 训练过程融合

6.2.1 Bagging

6.2.2 Boosting

6.3 训练结果融合

6.3.1 加权法

6.3.2 Stacking 融合

6.3.3 Blending 融合

6.4 实战案例

6.5 思考练习

第二部分物以类聚，人以群分

第 7 章用户画像

7.1 什么是用户画像

7.2 标签系统

7.2.1 标签分类方式

7.2.2 多渠道获取标签

7.2.3 标签体系框架

7.3 用户画像数据特征

7.3.1 常见的数据形式

7.3.2 文本挖掘算法

7.3.3 神奇的嵌入表示

7.3.4 相似度计算方法

7.4 用户画像的应用

7.4.1 用户分析

7.4.2 精准营销

7.4.3 风控领域

7.5 思考练习

第 8 章实战案例：Elo Merchant Category Recommendation

8.1 赛题理解

8.1.1 赛题背景

8.1.2 赛题数据

8.1.3 赛题任务

8.1.4 评价指标

8.1.5 赛题 FAQ

8.2 数据探索

8.2.1 字段类别含义

8.2.2 字段取值状况

8.2.3 数据分布差异

8.2.4 表格关联关系

8.2.5 数据预处理

8.3 特征工程

8.3.1 通用特征

8.3.2 业务特征

8.3.3 文本特征

8.3.4 特征选择

8.4 模型训练

8.4.1 随机森林

8.4.2 LightGBM

8.4.3 XGBoost

8.5 模型融合

8.5.1 加权融合

8.5.2 Stacking 融合

8.6 高效提分

8.6.1 特征优化

8.6.2 融合技巧

8.7 赛题总结

8.7.1 更多方案

8.7.2 知识点梳理

8.7.3 延伸学习

第三部分以史为鉴，未来可期

第 9 章时间序列

9.1 什么是时间序列

9.1.1 简单定义

9.1.2 常见问题

9.1.3 交叉验证

9.1.4 基本规则方法

9.2 时间序列模式

9.2.1 趋势性

9.2.2 周期性

9.2.3 相关性

9.2.4 随机性

9.3 特征提取方式

9.3.1 历史平移

9.3.2 窗口统计

9.3.3 序列熵特征

9.3.4 其他特征

9.4 模型的多样性

9.4.1 传统的时序模型

9.4.2 树模型

9.4.3 深度学习模型

9.5 思考练习

第 10 章实战案例：全球城市计算 AI 挑战赛

10.1 赛题理解

10.1.1 背景介绍

10.1.2 赛题数据

10.1.3 评价指标

10.1.4 赛题 FAQ

10.1.5 baseline 方案

10.2 数据探索

10.2.1 数据初探

10.2.2 模式分析

10.3 特征工程

10.3.1 数据预处理

10.3.2 强相关性特征

10.3.3 趋势性特征

10.3.4 站点相关特征

10.3.5 特征强化

10.4 模型训练

10.4.1 LightGBM

10.4.2 时序模型

10.5 强化学习

10.5.1 时序 stacking

10.5.2 Top 方案解析

10.5.3 相关赛题推荐

第 11 章实战案例：Corporación Favorita Grocery Sales Forecasting

11.1 赛题理解

11.1.1 背景介绍

11.1.2 赛题数据

11.1.3 评价指标

11.1.4 赛题 FAQ

11.1.5 baseline 方案

11.2 数据探索

11.2.1 数据初探

11.2.2 单变量分析

11.2.3 多变量分析

11.3 特征工程

11.3.1 历史平移特征

11.3.2 窗口统计特征

11.3.3 构造粒度多样性

11.3.4 高效特征选择

11.4 模型训练

11.4.1 LightGBM

11.4.2 LSTM

11.4.3 Wavenet

11.4.4 模型融合

11.5 赛题总结

11.5.1 更多方案

11.5.2 知识点梳理

11.5.3 延伸学习

第四部分精准投放，优化体验

第 12 章计算广告

12.1 什么是计算广告

12.1.1 主要问题

12.1.2 计算广告系统架构

12.2 广告类型

12.2.1 合约广告

12.2.2 竞价广告

12.2.3 程序化交易广告

12.3 广告召回

12.3.1 广告召模块

12.3.2 DSSM 语义召回

12.4 广告排序

12.4.1 点击率预估

12.4.2 特征处理

12.4.3 常见模型

12.5 广告竞价

12.6 思考练习

第 13 章实战案例：2018 腾讯广告算法大赛——相似人群拓展

13.1 赛题理解

13.1.1 赛题背景

13.1.2 赛题数据

13.1.3 赛题任务

13.1.4 评价指标

13.1.5 赛题 FAQ

13.2 数据探索

13.2.1 竞赛的公开数据集

13.2.2 训练集与测试集

13.2.3 广告属性

13.2.4 用户信息

13.2.5 数据集特征拼接

13.2.6 基本建模思路

13.3 特征工程

13.3.1 经典特征

13.3.2 业务特征

13.3.3 文本特征

13.3.4 特征降维

13.3.5 特征存储

13.4 模型训练

13.4.1 LightGBM

13.4.2 CatBoost

13.4.3 XGBoost

13.5 模型融合

13.5.1 加权融合

13.5.2 Stacking 融合

13.6 赛题总结

13.6.1 更多方案

13.6.2 知识点梳理

13.6.3 延伸学习

第 14 章实战案例：TalkingData AdTracking Fraud Detection Challenge

14.1 赛题理解

14.1.1 背景介绍

14.1.2 赛题数据

14.1.3 评价指标

14.1.4 赛题 FAQ

14.1.5 baseline 方案

14.2 数据探索

14.2.1 数据初探

14.2.2 单变量分析

14.2.3 多变量分析

14.2.4 数据分布

14.3 特征工程

14.3.1 统计特征

14.3.2 时间差特征

14.3.3 排序特征

14.3.4 目标编码特征

14.4 模型训练

14.4.1 LR

14.4.2 CatBoost

14.4.3 LightGBM

14.4.4 DeepFM

14.5 赛题总结

14.5.1 更多方案

14.5.2 知识点梳理

14.5.3 延伸学习

第五部分听你所说，懂你所写

第 15 章自然语言处理

15.1 自然语言处理的发展历程

15.2 自然语言处理的常见场景

15.2.1 分类、归任务

15.2.2 信息检索、文本匹配等任务

15.2.3 序列对序列、序列标注

15.2.4 机器阅读

15.3 自然语言处理的常见技术

15.3.1 基于词袋模型、TF-IDF 的特征提取

15.3.2 N-Gram 模型

15.3.3 词嵌入模型

15.3.4 上下文相关预训练模型

15.3.5 常用的深度学习模型结构

15.4 思考练习

第 16 章实战案例：Quora Question Pairs

16.1 赛题理解

16.1.1 赛题背景

16.1.2 赛题数据

16.1.3 赛题任务

16.1.4 评价指标

16.1.5 赛题 FAQ

16.2 数据探索

16.2.1 字段类别含义

16.2.2 数据集基本量

16.2.3 文本的分布

16.2.4 词的数量与词云分析

16.2.5 基于传统手段的文本数据预处理

16.2.6 基于深度学习模型的文本数据预处理

16.3 特征工程

16.3.1 通用文本特征

16.3.2 相似度特征

16.3.3 词向量的进一步应用——独有词匹配

16.3.4 词向量的进一步应用——词与词的两两匹配

16.3.5 其他相似度计算方式

16.4 模型训练

16.4.1 TextCNN 模型

16.4.2 TextLSTM 模型

16.4.3 TextLSTM with Attention 模型

16.4.4 Self-Attention 层

16.4.5 Transformer 和 BERT 类模型

16.4.6 基于 representation 和基于 interaction 的深度学习模型的差异

16.4.7 一种特殊的基于 interaction 的深度学习模型

16.4.8 深度学习文本数据的翻译增强

16.4.9 深度学习文本数据的预处理

16.4.10 BERT 模型的训练

16.5 模型融合

16.6 赛题总结

16.6.1 更多方案

16.6.2 知识点梳理

16.6.3 延伸学习

作者简介

看完了

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论，分享你的想法吧！

发表评论

买过这本书的人还买过

读了这本书的人还在读

支持设备

机器学习算法竞赛实战电子书

支持设备

当当云阅读