前言
在上一篇文章《虎嗅文章分析(一)》中,主要对文章收藏量、评论量和文章标题长度之间的关系进行了探究,此篇文章接着上篇文章进行探究。
盘点最值得关注的虎嗅作家TOP10
找出平均收藏量最多并且发文数量在5篇及以上的的10位作家。
def analysis(data):
data = pd.pivot_table(data,values=['favorites'],index='name',aggfunc=[np.sum,np.size])
data['avg'] = data[('sum','favorites')]/data[('size','favorites')]
data['avg'] = data['avg'].astype('int')
data.columns = data.columns.get_level_values(0)
data.columns = ['total_favorites','article_num','avg_favorites']
data = data.query('article_num>4')
data = data.sort_values(by=['avg_favorites'],ascending = False)
print(data[:10])
analysis(data)
最值得关注的虎嗅作家TOP10.PNG
文章标题形式
探究文章标题中带问号以及带叹号的占比。
data1 = data[data['title'].str.contains("(.*\?.*)|(.*\?.*)")]
data2 = data[data['title'].str.contains("(.*\!.*)|(.*\!.*)")]
quantity = data.shape[0] - data1.shape[0] - data2.shape[0]
size = [data1.shape[0],data2.shape[0],quantity]
labels = [u'问号标题',u'叹号标题',u'陈诉性标题']
colors_pie = ['#1362A3','#3297EA','#8EC6F5']
explode = [0.05,0,0] #突出显示问号部分
plt.pie(size,labels=labels,colors = colors_pie,explode = explode,startangle=270,autopct='%1.f%%',textprops={'fontsize' : 12,'color':'b'})
plt.axis('equal')
文章标题形式.png
- 37%的文章标题中都包含问号。
每周发文情况分析
data_1 = data[data['name']!='虎嗅']
data_1['weekday'] = data['write_time'].dt.weekday.apply(lambda x:x+1)
data_1.groupby('weekday')['title'].count().plot(kind = 'bar')
每周发文数量.png
从图上可以看出:星期六和星期天虎嗅网上发表文章篇数较少,推断:在虎嗅网上发表文章的作家有很多都是一些平台的签约作家。
每周收藏量分析
a = data.groupby('weekday')['favorites'].sum()/(data.groupby('weekday')['title'].count())
a.plot(kind = 'bar')
一周中平均文章收藏量.png
星期六星期天的文章平均收藏量较高,可以推测出双休日虎嗅网的浏览量也应该是最多的。
文章标题词云分析
from scipy.misc import imread
def wordcloud(data):
text = ''
for line in data['title']:
patterm = '(\[.*]|.*:|\【.*】|\《.*》)'
line = re.sub(patterm,'',line)
text += ' '.join(jieba.cut(line))
stopwords = set()
stopwords.update(['如何','怎么','一个','什么','为什么','还是','我们','为何','可能','不是','没有','哪些','成为','\
可以','背后','到底','就是','这么','不要','怎样','为了','能否','你们','还有','这样','这个','真的','那些'])
mask = imread('G:/huxiu_data/tiger1.jpg')
cloud = WordCloud(background_color = 'white',font_path='./fonts/simhei.ttf',max_words = 100,mask = mask,max_font_size = 100,
margin = 2,scale = 2,stopwords=stopwords)
cloud.generate(text)
plt.imshow(cloud)
plt.axis=("off")
wordcloud(data)
文章标题词云.PNG
从词云图中可以发现:
*虎嗅网上的文章主要集中在中国互联网公司,主要的关键字包括:互联网、阿里、腾讯、微信、百度、电商、苹果、小米等等。
2013年到2018年互联网行业情况
分析2013年到2018年6年间虎嗅网文章标题看互联网发展趋势。
从2013年到2018年情况.jpg
- 2013年,媒体、百度、电商、微信
- 2014年,微信、小米、阿里、电商、腾讯
- 2015年,小米,创业,苹果、阿里、O2O
- 2016年,创业,苹果,投资,微信,VR
- 2017年,腾讯,阿里,游戏,AI
- 2018年,阿里,腾讯,游戏,小米,AI,区块链
从2013年到2018年,互联网行业热点一直在变化,2019年会是什么呢?
网友评论