前言
相信许多不懂技术的小伙伴一看到代码就懵圈,我也一样,看到密密麻麻的数字脑子就疼,大学不听劝非要选 C 语言,没翘过一节课但啥也没听懂,背了两道题就上考场了,最后还是因为前面坐了个哥们,抄他的都只抄了60分……
话说回来,很多时候我们感知一个产品的受众,稍微体验下就可做出判断,但调研的越多,就越不确定自己的答案,要么就掉进“幸存者偏差”里,越做越错,然后用勤奋掩盖了懒惰。
所以,当有了项目或者需求,我们除了用心感知,用爱发电,也可以用“大数据”来看看相关趋势,做出更好的判断。那么,回到第一段,不会代码,该如何去找大数据?
傻瓜爬虫工具 - Web Scraper
介绍这个工具之前,我还想强调一下“目的”,做事情前,花几分钟思考下你想要的结果,这比盲做更有价值。Web Scraper 只是具有工具属性,但它不是结果,只要几十分钟,你就能学会。
下载安装
你需要:
- Chrome 浏览器
- Web Scraper 插件
Web Scraper 插件有两种下载方式:
- 若你有梯子,直接去谷歌应用商店,搜索下载即可
- 没有的话,公众号回复「喵喵」发你百度云链接;公众号:隐世Dasein
- - 下载完成后浏览器输入chrome://extensions/
- - 将下载完成的东西拖进来即可
打开软件
打开 Chrome;
mac:command + option + I
Windows:Ctrl + Shift + I
正式开始
创建sitemap
比如,我在知乎上看到一个好看的小姐姐,我想看下关注她的粉丝是什么样的。
打开粉丝数界面,启动 Web Scraper,创建sitemap。
Create New Sitemap-create new sitemap
create new sitemap 页面
Sitemap name :xiaojiejie (随便输个就好)
Start url:“输入当前网址”
点击 create sitemap 后的页面
点击 Add new selecter
点击 create sitemap 后的页面
id :content (也是随便输,自己看懂就行)
Type:选择 Element
选择 Select,将鼠标移到用户头像所在区域(可能上天觉得他要绿),颜色会变绿。
点击所在区域,要变红(可能跟别的男人干架了)。
再点击下面的 “嘿嘿 小蛋子”,所有同类别的区域都会自动变红啦~
再点击 Done Selecting,这里一定要点,不点后面会报错。
勾选 Multiple,并点击 Save selector
点击我们刚刚创建的 content
id:name (依旧随便写)
Type:选择 Text (因为我们选择是人名)
点击 Select,选择“火山兄”,点击 Done Selecting
不勾选 Multiple,因为此时我只要用户名。
我们的用户名采集工作就做完了~
接下来,我依次再爬去“用户介绍”、“回答问题数”、“关注者数”,步骤与采集用户名一样。
*用户介绍
点击 Scrape,开始采集数据
这里直接点击 Start scraping 就好啦
数据采集完成后,点击 refresh
喵喵喵,东西就出来了,但此时我们发现只有一页数据。
返回第一层,选择 Edit metadata
小姐姐有396页粉丝,每点击一次新页面,发现 url 后的数字有变化,所以,此时在网址后添加[1-396:1]
再次 Scrape 就可以坐等结果了,爬完后将文件导出就慢慢分析吧~
后记
就算你有了大量数据,还需要一些数据分析方法,不然也是干瞪眼,瞎哔乱炮写一堆,没人看懂你想表达的东西。
明确目的比掌握工具更重要
留两个小问题
如果我爬的网站不是点击翻页的,而是不断下滑的该怎么办?
微博的评论既有下滑又有点击,又该怎么办?
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
说点题外话,最近加了亦仁的星球,光看别人的自我介绍,感觉自己都快被秒成渣了。其实大学期间就加了亦仁的微信,但始终没入群,觉得是不是要攒点工作经验再入群,回首一看,自己太天真,打破认知思维需要勇气,李笑来有一句话:“你的阅读量觉得阅读质量。”,但我觉得这里有个 Hidden premise ,前提是你有分辨能力,在你在对信息源的处理上有疑问的时候,跟着一群大佬走,总不会有错,虽然你肯定还会走坑,但你多了选择。
推荐一下,有兴趣可以加入~
网友评论