如何一小时爬取百万知乎用户信息，并做简单的可视化分析？

作者: 方志朋 | 来源:发表于2017-04-02 12:25 被阅读4268次

分布式爬虫爬取知乎用户—页面分析篇
如何一小时爬取百万知乎用户信息，并做简单的可视化分析？
Java 知乎爬虫
scrapy实战--爬取知乎用户信息(上)
Python爬取豆瓣电影TOP250
小伙利用Python爬取某公司A股数据，老板竟花重金寻他！
爬取知乎用户信息 - Scrapy + MongoDB
使用Scrapy爬取知乎用户信息
【零基础学爬虫】scrapy实战：抓取知乎用户信息
Python系列爬虫之携程旅游景点数据爬取与可视化

一、使用的技术栈：

爬虫：python27 +requests+json+bs4+time
分析工具： ELK套件
开发工具：pycharm

二、数据成果

三、简单的可视化分析

1.性别分布

0 绿色代表的是男性 ^ . ^
1 代表的是女性
-1 性别不确定

可见知乎的用户男性颇多。

WechatIMG2.jpeg

2.粉丝最多的top30

粉丝最多的前三十名：依次是张佳玮、李开复、黄继新等等，去知乎上查这些人，也差不多这个排名，说明爬取的数据具有一定的说服力。

粉丝最多的top30

3.写文章最多的top30

写文章最多的top30

四、爬虫架构

爬虫架构图如下：

爬虫架构图

说明：

选择一个活跃的用户（比如李开复）的url作为入口url.并将已爬取的url存在set中。
抓取内容，并解析该用户的关注的用户的列表url，添加这些url到另一个set中，并用已爬取的url作为过滤。
解析该用户的个人信息，并存取到本地磁盘。
logstash取实时的获取本地磁盘的用户数据，并给elsticsearch
kibana和elasticsearch配合，将数据转换成用户友好的可视化图形。

五.编码

爬取一个url:

def download(url):
    if url is None:
        return None
    try:
        response = requests.get(url, headers={
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36',
            'authorization': 'your authorization '
        })
        print (response.content)
        if (response.status_code == 200):
            return response.content
        return None
    except:
        return None

解析内容：

def parse(response):
    try:
        print (response)
        json_body = json.loads(response);
        json_data = json_body['data']
        for item in json_data:
            if (not old_url_tokens.__contains__(item['url_token'])):
                if(new_url_tokens.__len__()<2000):
                   new_url_tokens.add(item['url_token'])
            if (not saved_users_set.__contains__(item['url_token'])):
                jj=json.dumps(item)
                save(item['url_token'],jj )
                saved_users_set.add(item['url_token'])

        if (not json_body['paging']['is_end']):
            next_url = json_body['paging']['next']
            response2 = download(next_url)
            parse(response2)

    except:
        print ('parse fail')

存本地文件：

def save(url_token, strs):
    f = file("\\Users\\forezp\\Downloads\\zhihu\\user_" + url_token + ".txt", "w+")
    f.writelines(strs)
    f.close()

代码说明：

需要修改获取requests请求头的authorization。
需要修改你的文件存储路径。

源码下载：点击这里，记得star哦！

六.如何获取authorization

打开chorme，打开https://www.zhihu.com/，
登陆，首页随便找个用户，进入他的个人主页，F12(或鼠标右键，点检查)
点击关注，刷新页面，见图：

如何获取authorization

七、可改进的地方

可增加线程池，提高爬虫效率
存储url的时候我才用的set(),并且采用缓存策略，最多只存2000个url，防止内存不够，其实可以存在redis中。
存储爬取后的用户我说采取的是本地文件的方式，更好的方式应该是存在mongodb中。
对爬取的用户应该有一个信息的过滤，比如用户的粉丝数需要大与100或者参与话题数大于10等才存储。防止抓取了过多的僵尸用户。

八.关于ELK套件

关于elk的套件安装就不讨论了，具体见官网就行了。网站：https://www.elastic.co/

另外logstash的配置文件如下：


input {
  # For detail config for log4j as input,
  # See: https://www.elastic.co/guide/en/logstash/current/plugins-inputs-log4j.html

    file {
        path => "/Users/forezp/Downloads/zhihu/*"
    }


}
filter {
  #Only matched data are send to output.
}
output {
  # For detail config for elasticsearch as output,
  # See: https://www.elastic.co/guide/en/logstash/current/plugins-outputs-elasticsearch.html
 elasticsearch {
    action => "index"          #The operation on ES
    hosts  => "localhost:9200"   #ElasticSearch host, can be array.
    index  => "zhihu"         #The index to write data to.
  }
}

九、结语

从爬取的用户数据可分析的地方很多，比如地域、学历、年龄等等，我就不一一列举了。另外，我觉得爬虫是一件非常有意思的事情，在这个内容消费升级的年代，如何在广阔的互联网的数据海洋中挖掘有价值的数据，是一件值得思考和需不断践行的事情。最后，本文仅用作交流学习，一切数据归知乎所有。如果知乎告知我侵权，我会立刻删除本文。

分布式爬虫爬取知乎用户—页面分析篇
使用python3爬取知乎用户信息并分析参考了：呓语 » 如何写一个简单的分布式知乎爬虫？打算自己做一个pyth...
如何一小时爬取百万知乎用户信息，并做简单的可视化分析？
一、使用的技术栈：爬虫：python27 +requests+json+bs4+time 分析工具： ELK套件...
Java 知乎爬虫
目标爬取知乎用户信息，并作简要分析。所爬的对象是关注者≥10的用户，因为：关注者数量<10的用户，很多的僵尸用...
scrapy实战--爬取知乎用户信息(上)
背景使用Scrapy分布式爬取知乎所有用户个人信息!项目地址爬取知乎所有用户大规模抓取静态网页Scrapy绝...
Python爬取豆瓣电影TOP250
爬取目标爬取豆瓣电影TOP250信息并简单分析爬取网址为https://movie.douban.com/to...
小伙利用Python爬取某公司A股数据，老板竟花重金寻他！
导语闲来无事，随手爬点数据顺便简单地可视化分析一波吧。利用Python爬取并简单分析A股公司数据。让我们愉块地开...
爬取知乎用户信息 - Scrapy + MongoDB
归属文集: Python + Scrapy + MongoDB实例环境需求本机环境：32bit Windows...
使用Scrapy爬取知乎用户信息
本文记录了关于知乎用户信息的模块化抓取，使用到了Scrapy这个开源项目，对其不熟悉的同学建议提前了解知乎是现在...
【零基础学爬虫】scrapy实战：抓取知乎用户信息
简介知乎用户信息是非常大的，本文是一个scrapy实战：怎样抓取所有知乎用户信息。爬取的思路如下图所示：选择一...
Python系列爬虫之携程旅游景点数据爬取与可视化
前言今天我们就用爬虫携程旅游景点数据爬取与可视化并做简单的数据可视化分析呗。让我们愉快地开始吧~ 开发工具 Py...

网友评论