爬取流程:
1、定义提取的数据字段列表item或Item Loaders
2、定义Spider类的爬取规则,获取爬取数据列表item或Item Loaders.
爬取利器:Xpath,CSS选择器,Beautiful soup,re
3、定义分析、处理和存储数据i列表。
分析、处理、存储的方法可以放在管道pipeline里。
4、定义配置列表,包括代理,管道pipeline及spider组件等。
代理也可以放在中间件里设置。
开动,这是我的第一个爬虫项目,好久没有写代码了,生疏了不少。
上代码:爬取豌豆荚下单个APP的历史更新记录,描述,分类和所有评论等关键数据。
ps,这里只爬单个的,爬取所有app或者某个分类的app信息这里不贴了,原理类似,很简单。
Spider部分代码如下:
上面取得是所有评论数据,因为有的评论超过几千,所以这里我取了最多30页也就是300条,够了。
获取后,然后在pipeline里把数据存到csv文件,pipe定义数据展示格式没做好,只做了循环,没有对数据的展示 进行处理,等事情忙完了再改这个吧~~
本来想自己码代码进行自然语言处理和数据挖掘,通过数据清洗,分词,实体抽取,然后词频统计和用户情感分析,分析出好评对应的标签有哪些,中差评对应的标签有哪些,好评和中差评的占比各自是多少,用户评论在时间上的变化趋势的,地域分布特点(但是豌豆荚界面里没有地域这个字段啊。。),用户手机的占比情况(结果豌豆荚里面没有用户手机这个字段。。)
用户关注焦点分析如下:
可以看到用户关注什么,然后针对性的完善。
发现这样的可视化我是无法通过肉眼很快的知道权重和排序,更浪费时间。最后用excel表列出关注度排序,如下:
接着进行了情感分析,总体好评54.73%多于中差评45.13%:
还有的数据分析有空再弄吧。
我要记得爬热点和热点词频(运营用,比如震惊)。。
另外,词云工具大家还可以用图悦,tagul。
网友评论