美文网首页Web Scraper
人人都能学会的数据爬虫

人人都能学会的数据爬虫

作者: 土匪刘小姐 | 来源:发表于2017-08-14 16:31 被阅读238次
    网络蜘蛛侠,要多酷有多酷


    1.准备:谷歌浏览器、Webscraper.

    2.百度将Webscraper安装到谷歌浏览器上面。

    3.打开需要爬虫的网页,开始爬虫。

    人生中第一只爬虫,刨了偶像在知乎回答的问题标题。

    总结一下我的做法:

    第一课业

    最开始,试着爬虫,然后不知道id写什么,因为前面没怎么听到是自由设置题目的,所以直接看了视频答疑,才发现,可以自由设置标题,也就是视频中的“title”,视频重复看了几遍,因为自己中间要么是漏掉mutiple,要么只抓到5条标题。错误很多啊,咋办呢?还不是只有挨着来看哪个环节出问题了,于是乎一步一步跟着视频来,欸!对了!然后,只爬出了55条。下图1

    不对呀,好像是没有完整呀?咋整呢?原来呀,是时间设置太短,反应不过来(暂且我就这么通俗的理解吧),所以呢,更改了时间,为2000,然后就激动地等待………………

    此处是漫长等待分割线(网速不给力)

    ……………………………………………………………………………………………………………………………………

    cool!得到130条数据!如下图2。


    所以

    复盘整个爬虫顺利的流程是:

    1.打开目标网址,右键选择【检查】,开始召唤得力大侠黑蜘蛛朋友【webscraper】;

    2.开始建立一个任务,新建站点【Creat new sitemap】,自定义输入站点名称,输入当前网址;

    3.新建一个选择器【Add new selector】,这相当于设定一个爬虫规则,让黑蜘蛛知道爬哪些元素;

    4. 点击【select】去抓取目标元素,这里是偶像回答问题的标题;点击第一个标题,然后点击第二个标题,相当于就定位好了你想要选择的元素,鼠标拖动页面,查看,这时候这一同类型的元素应该都选择好了。显示为红色。(未选择的为绿色),然后点击【Done selecting!】

    5.  输入ID名称,勾选【Multiple】.这里的ID我最开始还不懂,其实就是你当前要爬的内容,定一个名称,比如这里是标题,视频教程里就输入的是“title”,然后点击【Element preview】,核对是否选中所有要爬的内容,也可进行后几页内容的查看。

    6. 最后保存选择器【save 】,然后页面就设置完毕,然后开始抓取,在【sitemap(a-laohuang这个是你最初创建站点的名字)】下面,点击【Scrap】,等待蜘蛛大侠工作完毕。

    然后数据就出来啦!这个是单页爬取的内容,那么,还有分页呢,也就是说一个内容太多,不止一页内容,我们需要所有的数据咋整?

    1.这时候,就需要编辑分页抓取啦。打开第二页或者第三页,点击【Sitemap】——【Edit metadata】,然后将网页网址复制下来粘贴到网址区域,网址末端显示的是page=2,这时候我们把数字2删除,然后输入页面区域:“[1-7]”因为总共有7页嘛。点击【保存】,开始抓取【scrap】

    2. 导出格式,打开查看。【Export data as CSV】

    3.大功告成!!!!!!!不过,如果数据很少,这代表抓取的过程中,网页内容还没有生成,我们访问速度快了。所以呢,就需要重新把访问时间加长,把选择器中的【delay】输入为2000,还有就是在【scrap】种直接把默认的500改成2000,或者3000(也就是2秒3秒,也可以设置更大数字,比如5000)

    4. 最后点击【Star scraping】开启爬虫。最后结果应该就是完完整整的数据啦~  要注意那个时间的设置,比如3000也就是,每打开一个分页,等待3秒后才让蜘蛛大侠去爬数据。这下真正的大功告成,当当当当!

    结果:

    通过爬虫学习,对数据收集有一个进阶提升,干活儿(需要收集想要的数据的时候)效率飞速提升。

    进阶操作:

    【亲子活动爬虫】794条

    目的:抓取所有亲子游下相关数据,得出结果,并进行相关简单分析。

    爬取数据需要解决的问题:

    1.总节目多少?

    2.展览类型多少?

    3.非常受欢迎的活动是什么性质的?

    ……(其他的就是excel技能了,本人excel技能有点烂)

    抓取时间:8月5日09:13分

    抓取步骤:

    1.建立元素集,选择scrolldown,选择总区域

    2.分辨建立子元素选择器,name,type,price,paticipants

    3.其中报名人数不好选择,鼠标移动到报名人数,右键选择检查,用contrl+F,查找类型,最后发现是i.joincnt    复制到选择其中,然后 done selecting

    4.将数据整理,没找到快速填充,查了半天也没弄清楚,哈哈,偷懒了。用的分隔符,复制“|”。然后将数据分列处理。

    抓取结果及分析:

    1.总节目共794条。(这里可以对比同类别城市的数据结果,可以得到上海与北京,广州,深圳的对比)

    2.展览类型共65条(选择某一列数据,然后点击数据-筛选-找到展览-回车)

    3.价格最高:

    最高:大师出名级别的音乐视听演出,高过其他的4-5倍不等

    其次:是小朋友参与性强的,比如俱乐部,比如户外活动。

    4.受欢迎程度:

    最欢迎TOP1:科技类活动《畅玩2000平+14个顶尖太空科技体验项目+VR穿越时空》3305销量

    其次:马戏魔幻类《欢乐马戏》小朋友最爱!传递欢乐与幽默!2571销量

    还有票量极少的,分析方法同上,比如票量少的如何优化,这些就是具体到策略执行层了。而我们日常分析一个数据,除了看人家的数据结果,以及分析结果之外。

    最重要的就是对比到自己做事。比如如果我是总策划,我应该从哪些方面入手优化这些活动,从而提升销量。比如我可以分析其他城市同类活动数据,寻找维度,分析指标。提出优化策略。比如活动标题,是刺激大家点击查看详情的重点,如何优化等。

    最后深深有一种茅塞顿开的感触:

    工具解放你的四肢,好比如各种笔记软件解放了你的大脑。


    又掌握一门技能,感觉真好。

    相关文章

      网友评论

        本文标题:人人都能学会的数据爬虫

        本文链接:https://www.haomeiwen.com/subject/icburxtx.html