webscraper 抓数据需求文档

作者: 明白1 | 来源:发表于2019-02-11 12:04 被阅读254次

一、如何判断自己要抓的东西爬虫能完成？

如果你要抓一个东西

如果能看到，那就 99% 能抓，如果看不到，那就抓不了。

二、抓数据需要提供的信息

为了提高沟通效率，下面这些信息请您认真查看

1、要抓取的网址链接。为什么要提供这个，参看第一点。
2、要抓取的信息字段，为了不产生歧义，需要截图标注清楚
3、如果有多页，要说明抓多少页

举例——
需求概述：小明要抓取淘宝上关于酸奶的商品信息。
需要提供：

网站链接 —— 如何获取？进入淘宝 www.taobao.com，然后搜索“酸奶”，出现的这个链接，就是爬虫需要的链接，结果链接如下：
https://s.taobao.com/search?q=%E9%85%B8%E5%A5%B6&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306

image.png

具体截图如下：

image.png

image.png

ps:上面是个例子，具体情况，可以根据需求改变。比如抓取的字段不同，或者抓取页数不一样等

本文标题：webscraper 抓数据需求文档

本文链接：https://www.haomeiwen.com/subject/kqqqeqtx.html