万本电子书0元读

万本电子书0元读

顶部广告

网络爬虫开发电子书

售       价:¥

30人正在读 | 0人评论 6.6

作       者:纪娜

出  版  社:上海交通大学出版社

出版时间:2023-11-01

字       数:11.5万

所属分类: 科技 > 计算机/网络 > 软件系统

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
本书共有八个项目,围绕网络爬虫三部曲“爬取—解析—存储”较为*地介绍关于不同场景下利用Python爬取网络数据的基础知识和方法,让读者通过编写简单的静态爬虫和动态爬虫,使用Scrapy爬虫框架完成对爬虫理论和实践技能的学习。内容分为基础知识篇、中阶知识篇和实战篇。项目一至项目三介绍爬虫的基本概念、网页基础知识和Python基本语法等;项目四和项目五利用实例演示介绍有关爬取库、解析库等爬虫中阶知识;项目六至项目八则是实战篇,主要介绍数据存储的实例和利用动态网页爬取数据的综合案例,再次完整展现爬虫三部曲“爬取—解析—存储”,以及Scrapy爬虫框架的概念和实施。本书面向对网络爬虫技术感兴趣的读者,介绍了使用Python语言编写爬虫的各种技巧和方法,可供大数据技术等相关专业的学生参考使用,也可作为大数据技术爱好者的自学用书。
目录展开

内容提要

《网络爬虫开发》编委会

前言

爬虫基础篇

项目一 初识爬虫

任务一 认识网络爬虫

任务二 网络爬虫的合法性与robots协议

任务三 认识反爬虫

任务四 拓展知识

内容小结

课后习题

实施评量单

项目二 Web基础

任务一 HTTP基本原理

任务二 网页基础

任务三 会话和cookie机制

任务四 谷歌浏览器开发者工具

任务五 拓展知识

内容小结

实训任务

课后习题

实施评量单

项目三 Python语言基础

任务一 认识Python语言并搭建开发环境

任务二 Python基础语法

任务三 Python常用语句

任务四 字符串与正则表达式

任务五 列表、元组和字典

任务六 拓展知识Python函数

内容小结

课后习题

实施评量单

爬虫中阶篇

项目四 常用的网络请求库

任务一 认识HTTP请求

任务二 urllib网络请求库

任务三 requests网络请求库

任务四 拓展知识:httpx请求库

内容小结

实训任务

课后习题

实施评量单

项目五 网页数据的解析提取

任务一 网络解析基础

任务二 用XPath解析网页

任务三 使用Beautiful Soup解析网页

任务四 PyQuery解析库

任务五 拓展知识:正则表达式的解析

内容小结

实训任务

课后习题

实施评量单

爬虫实战篇

项目六 数据存储

任务一 数据存储在文本文件中

任务二 综合任务——“智游陕西,畅享三秦”,爬取陕西热门景点数据

任务三 关系型数据库

任务四 使用Python连接MySQL数据库进行读写操作

任务五 拓展知识:MongoDB数据库

内容小结

实训任务

实施评量单

项目七 常规动态网页爬取

任务一 逆向分析爬取动态网页

任务二 Selenium的安装与使用

任务三 AJAX的使用

任务四 综合任务——使用Selenium进行岗位信息和岗位需求爬取

内容小结

实训任务

课后习题

实施评量单

项目八 Scrapy爬虫框架

任务一 Scrapy的安装与使用

任务二 综合任务——爬取豆瓣电影Top 250信息

内容小结

课后习题

实施评量单

参考文献

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部