虎嗅文章分析(二)

作者: 晓迦 | 来源:发表于2018-12-28 22:41 被阅读6次

    前言

    在上一篇文章《虎嗅文章分析(一)》中,主要对文章收藏量、评论量和文章标题长度之间的关系进行了探究,此篇文章接着上篇文章进行探究。

    盘点最值得关注的虎嗅作家TOP10

    找出平均收藏量最多并且发文数量在5篇及以上的的10位作家。

    def analysis(data):
        data = pd.pivot_table(data,values=['favorites'],index='name',aggfunc=[np.sum,np.size])
        data['avg'] = data[('sum','favorites')]/data[('size','favorites')]
        data['avg'] = data['avg'].astype('int')
        data.columns = data.columns.get_level_values(0)
        data.columns = ['total_favorites','article_num','avg_favorites']
        data = data.query('article_num>4')
        data = data.sort_values(by=['avg_favorites'],ascending = False)
        print(data[:10])
    analysis(data)
    
    最值得关注的虎嗅作家TOP10.PNG

    文章标题形式

    探究文章标题中带问号以及带叹号的占比。

    data1 = data[data['title'].str.contains("(.*\?.*)|(.*\?.*)")]
    data2 = data[data['title'].str.contains("(.*\!.*)|(.*\!.*)")]
    quantity = data.shape[0] - data1.shape[0] - data2.shape[0]
    
    size = [data1.shape[0],data2.shape[0],quantity]
    labels = [u'问号标题',u'叹号标题',u'陈诉性标题']
    colors_pie = ['#1362A3','#3297EA','#8EC6F5']
    explode = [0.05,0,0] #突出显示问号部分
    plt.pie(size,labels=labels,colors = colors_pie,explode = explode,startangle=270,autopct='%1.f%%',textprops={'fontsize' : 12,'color':'b'})
    plt.axis('equal')
    
    文章标题形式.png
    • 37%的文章标题中都包含问号。

    每周发文情况分析

    data_1 = data[data['name']!='虎嗅']
    data_1['weekday'] = data['write_time'].dt.weekday.apply(lambda x:x+1)
    data_1.groupby('weekday')['title'].count().plot(kind = 'bar')
    
    每周发文数量.png

    从图上可以看出:星期六和星期天虎嗅网上发表文章篇数较少,推断:在虎嗅网上发表文章的作家有很多都是一些平台的签约作家。

    每周收藏量分析

    a = data.groupby('weekday')['favorites'].sum()/(data.groupby('weekday')['title'].count())
    a.plot(kind = 'bar')
    
    一周中平均文章收藏量.png

    星期六星期天的文章平均收藏量较高,可以推测出双休日虎嗅网的浏览量也应该是最多的。

    文章标题词云分析

    from scipy.misc import imread
    def wordcloud(data):
        text = ''
        for line in data['title']:
            patterm = '(\[.*]|.*:|\【.*】|\《.*》)'
            line = re.sub(patterm,'',line)
            text += ' '.join(jieba.cut(line))
        stopwords = set()
        stopwords.update(['如何','怎么','一个','什么','为什么','还是','我们','为何','可能','不是','没有','哪些','成为','\
                          可以','背后','到底','就是','这么','不要','怎样','为了','能否','你们','还有','这样','这个','真的','那些'])
        mask = imread('G:/huxiu_data/tiger1.jpg')
        cloud = WordCloud(background_color = 'white',font_path='./fonts/simhei.ttf',max_words = 100,mask = mask,max_font_size = 100,
                         margin = 2,scale = 2,stopwords=stopwords)
        cloud.generate(text)
        plt.imshow(cloud)
        plt.axis=("off")
        
    wordcloud(data)
    
    文章标题词云.PNG

    从词云图中可以发现:
    *虎嗅网上的文章主要集中在中国互联网公司,主要的关键字包括:互联网、阿里、腾讯、微信、百度、电商、苹果、小米等等。

    2013年到2018年互联网行业情况

    分析2013年到2018年6年间虎嗅网文章标题看互联网发展趋势。


    从2013年到2018年情况.jpg
    • 2013年,媒体、百度、电商、微信
    • 2014年,微信、小米、阿里、电商、腾讯
    • 2015年,小米,创业,苹果、阿里、O2O
    • 2016年,创业,苹果,投资,微信,VR
    • 2017年,腾讯,阿里,游戏AI
    • 2018年,阿里,腾讯,游戏,小米,AI区块链
      从2013年到2018年,互联网行业热点一直在变化,2019年会是什么呢?

    相关文章

      网友评论

        本文标题:虎嗅文章分析(二)

        本文链接:https://www.haomeiwen.com/subject/rvfylqtx.html