当当读书
网络爬虫全解析——技术、原理与实践

网络爬虫全解析——技术、原理与实践

罗刚
5
46.06 原价¥46 开通租阅权,免费读此书
提示:数字商品不支持退换货,不提供源文件,不支持导出打印。
评论 赠一得一 收藏 分享
此书籍暂不支持在移动端购买和阅读

内容简介

本书介绍了如何发网络爬虫。内容主要包括发网络爬虫所需要的Java语法基础和网络爬虫的工作原理,如何使用源组件HttpClient和爬虫框架Crawler4j抓取网页信息,以及针对抓取到的文本行有效信息的提取。为了扩展抓取能力,本书介绍了实现分布式网络爬虫的关键技术。另外,本书介绍了从图像和语音等多媒体格式文件中提取文本信息,以及如何使用大数据技术存储抓取到的信息。*后,以实战为例,介绍了如何抓取微信和微博,以及在电商、医药、金融等领域的案例应用。其中,电商领域的应用介绍了使用网络爬虫抓取商品信息库到网上商店的数据库表。医药领域的案例介绍了抓取PubMed医药论文库。金融领域的案例介绍了抓取股票信息,以及从年报PDF文档中提取表格等。本书适用于对发信息采集软件感兴趣的自学者。也可以供有Java或程序设计基础的发人员参考。
【推荐语】
相比用Python写网络爬虫,Java更有后发优势 运行在服务器端的网络爬虫,更应该用Java发 本书结合作者多年网络爬虫发经验 全面系统讲解了网络爬虫相关技术并以Java实现 通俗易懂、代码清晰、案例丰富实用 一本书全面掌握网络爬虫发
【作者】
罗刚,猎兔搜索创始人,带领猎兔搜索技术发团队先后发出猎兔中文分词系统、猎兔信息提取系统、猎兔智能垂直搜索系统以及网络信息监测系统等,实现互联网信息的采集、过滤、搜索和实时监测。曾编写出版《自己动手写搜索引擎》、《自己动手写网络爬虫》、《使用C#发搜索引擎》,获得广泛好评。在北京和上海等地均有猎兔培训的学员。
展开
大家都在看换一批
大家都在看换一批
领取优惠券

温馨提示:

您已领取的礼券,请到【个人中心】-【资产】中查看。