美文网首页
Web Scraper教程(二)爬虫入门详解之当当近期畅销书

Web Scraper教程(二)爬虫入门详解之当当近期畅销书

作者: iDataFly | 来源:发表于2020-05-04 21:13 被阅读0次

你一年能读几本书?一个要工作、要生活、还要玩儿的职场人,如果半个月能读完1本书,那么一年也就读24本吧!面对浩瀚无边的书海,当然要选择值得花费时间阅读的书来读了。

一、选书经验:根据阅读的目的选择找书的方法

阅读的目的不外乎以下三种:
  • 为了在专业领域学习某种技能或者更上一层楼
  • 对某个领域很感兴趣或者是自己的爱好
  • 充实自己,感受未知的世界,变得更加博学

今天的方法适用于第三个目的——感受未知的世界。

用最省钱的方法买最值得读的书

当当网以图书起家,自然沉淀了很多忠实用户,同时给网站带去了很多购买量和评价数。当当就用这些数据建立了很多榜单,帮助用户更好的选书。
但是好的选书方法不一定是好的购书方法,买书当然要考虑价格了。通过当当榜单选的书,在其他平台搜索一下价格,找一个不错的价格购买,才对得起自己的时间和银子。

二、采集的榜单和内容

进入当当畅销书榜单,选择近30天的畅销书,默认展示前20本,我们就对这20本的书名进行采集。

三、采集实操讲解

1. 调出Web Scraper界面
2. 新建Sitemap,创建采集项目

首先为当当畅销榜单建立一个采集项目。如下图,创建名称为「dangdang」的Sitemap。注意命名规则,一般使用长一点的英文就可以(至少3个字母)。
Sitemap name:dangdang
Start URLhttp://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent30-0-0-1-1
点击Create Sitemap创建完成!


命名规则
3. 为书名添加Selector

为书名添加选择器(Selector),步骤如下(文字与动态图结合看):

  • Id:选择器名称,这里填写「title」,表示要采集的是书的标题
  • Type:默认为Text,表示要采集的信息是文本格式
  • 点击Selector中的Select后,注意跳出一个条形对话框
  • 点选第1个书名,发现书名底色变红(表示被选中),然后点击第2个书名,此时发现后面的第3个、第4个……书名均变为红色
  • 点击条形对话框的Done selecting!
  • 勾选Multiple,表示除了点选的第1个和第2个书名外,本页后续底色变红的书名也都需要采集
  • 点击Save Selector,书名的选择器配置完成!
4. 激动人心的采集时刻到来了!

按照前面配置的内容执行采集程序,步骤如下(文字和动态图结合看):

  • 点击Sitemap dangdang下拉列表中的Scrape,开始执行程序
  • 出现的对话框中有两项数字内容,默认值均为2000
    Request interval:表示「网页请求发送间隔」,为了不被网站判定为机器进而阻止采集,需要模拟人的行为将动作放缓,通常按默认值即可
    Page load delay:表示「页面加载时长」,如果页面没有完全加载就开始采集,会造成信息采集不全,特别是在网速不佳的时候,通常也按默认值,也可适当调整
  • 点击Start scraping开始采集,弹出一个采集窗口,注意采集过程中不要关闭此窗口,待采集完成后,窗口会自动关闭
  • 窗口关闭后,点击refresh,出现3列数据
    「web-scraper-order」:程序自动编码,不用理会
    「web-scraper-start-url」:点击书名跳转的url,前面虽然只设置了采集书名的文本,但采集默认同时提供url,所以如果需要此项,不用再单独设置
    「title」:要采集的书名,注意,书名的顺序并非是网页上的顺序
5. 导出数据至CSV文件

Web Scraper免费版只提供CSV一种导出形式,导出后用Excel打开即可。

  • 点击Sitemap dangdang下拉列表中的Export data as csv
  • 点击Download now!后出现了浏览器的下载对话框,打开或者保存即可
6. Web Scraper界面内容介绍

下面,顺序介绍Web Scraper界面中的SitemapsSitemapCreate new sitemap
Sitemaps:Sitemap项目列表,所有创建的Sitemap均可在此列表找到,比如上面创建的「dangdang」就在此列表中


Sitemap:直接点击此项,Web Scraper无任何反应,因为此项只针对某一个已经创建的Sitemap,所以,要从Sitemaps中选择一个ID点击,这里点击「dangdang」,发现跳转到中间的Sitemap,并且变为了Sitemap dangdang,说明已经跳转到了指定的Sitemap内。

点击Sitemap dangdang,发现下拉列表有如下几项,逐一说明:
Selectors:选择器列表,每一个采集内容均要配置一个选择器,在上面的例子中,采集了书名,如果需要采集评论数、出版社等页面可见信息,要分别为这些信息逐一添加选择器
Selector graph:选择器结构图,显示选择器之间的树状关系,再复杂的采集项目中能够一目了然地呈现采集逻辑
Edit metadata:修改Sitemap设置,即Sitemap名称和url
Scrape:执行采集程序
Browse:浏览采集结果
Export Sitemap:导出Sitemap代码,此代码可以直接导入,无需再次配置
Export data as CSV:导出采集结果至csv文件

点击Create new sitemap,发现有两种新建Sitemap的方法,直接创建(Create Sitemap)和导入(Import Sitemap)。

当当的案例中已经讲过Create Sitemap,这里不再赘述。
点击Import Sitemap进入以下界面:
Sitemap JSON:把Export Sitemap导出的代码粘贴在此处
Rename Sitemap:为Sitemap命名
点击Import Sitemap后,同样成功创建了Sitemap

四、数据采集只是数据分析的过程

每一分钟,互联网上都会有海量的数据产生,数据的价值并非是它本身,而是通过分析数据能获得哪些有价值的信息。数据采集是一项不值得投入太多时间的工作(包括学习采集的时间和练习的时间),所以,只要学习了网页常见情况的处理方法就可以,没有必要为了学习采集而频繁练习。遇到新的问题时,再到网上寻求解答,这样会记得更牢。

相关文章

网友评论

      本文标题:Web Scraper教程(二)爬虫入门详解之当当近期畅销书

      本文链接:https://www.haomeiwen.com/subject/npmyghtx.html