虎嗅文章分析（一）

作者: 晓迦 | 来源:发表于2018-12-26 22:29 被阅读35次

数据来源

数据来源于博主高级农民工的博客文章“pyspider爬取并分析虎嗅网5万篇文章”，感谢博主提供的数据与代码。

数据导入

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']   #用来显示中文标签
plt.rcParams['axes.unicode_minus'] = False    #显示负号
%matplotlib inline
data = pd.read_csv('G:\huxiu_data\huxiu.csv')
data.head()

样本数据.PNG

数据共包含49996行，7列。
列名含义：abstract 摘要 comment 评论 favorites 喜欢 name 姓名 title 标题 url 网址 write_time 写作时间

数据清洗

数据清洗主要包括清除重复值，以及查看数据缺失与否，数据格式是否要转换等等。
在本次分析中，进行了去重处理；将时间里的几小时前或者几天前的数据转化为日期格式；以及删除了姓名中多余的字符©；

data.drop_duplicates(keep  ='first',inplace  = True)  #去重
data = data.reset_index(drop = True)

data['write_time'] = data['write_time'].replace('.*小时前','2018-11-02',regex = True)
data['write_time'] = data['write_time'].replace('1天前','2018-11-01')
data['write_time'] = data['write_time'].replace('2天前','2018-10-31')
data['write_time'] = data['write_time'].replace('3天前','2018-10-30')
data['write_time'] = data['write_time'].replace('4天前','2018-10-29')
data['write_time'] = data['write_time'].replace('5天前','2018-10-28')
data['write_time'] = data['write_time'].replace('6天前','2018-10-27')  #时间格式转换
data['write_time'] = pd.to_datetime(data['write_time'])

data['name'] = data['name'].replace('©','',regex=True)
#data['name'] = data['name'].str.strip('©')   

#增加一列数据   标题的长度  进行后续分析
data['title_length'] = data['title'].apply(len)

数据分析

数字变量分析

data.describe()

数字变量总体情况.PNG

可以看到：

文章的平均评论数与收藏量都不是很多，其中文章平均评论量为24，文章平均收藏量为48。
两组数据的偏差都比较大，不同文章之间的评论量与收藏量差异巨大；
文章平均长度为23个字，比较有趣的是字数最少的标题竟然只有一个字，下面看看标题只有一个字的文章长什么样？

壳.PNG

文章标题为一个字的文章标题：”壳”

评论量、收藏数和字数长度之间的关系

import seaborn as sns
sns.pairplot(data,diag_kind="kde")  # diag_kind 表示单变量为线性，默认值条形图。

评论量、收藏数和字数长度之间的关系.png

从上可以看出：

评论量与收藏量都是长尾分布，大部分文章评论量与收藏量较少，少量的文章获得了较多的评论量与收藏量。
通过分析评论量与收藏量的关系，发现，评论量较高的文章，收藏量较低；收藏量较高的文章，评论量较低。
文章标题长度超过100的，收藏量与评论量都比较低。

文章收藏量TOP20

top = data.sort_values(['favorites'],ascending = False)
top.index = range(1,1+len(top.index))
top.index.name = 'TOP20'
top[:20][['title','favorites','comment']]

文章收藏量TOP20.PNG

在收藏量TOP20中，仅仅通过分析标题，主题有书籍推荐、演讲、经济、思维等，可以发现大部分都是干货。但是收藏量第2的文章似乎与与其他的文章格格不入？京东打脸央视，不像干货？去虎嗅上瞧瞧~

京东打脸央视.PNG

仔细看了这篇文章，小佳觉得完全没有收藏的必要
央视曝京东涉嫌销售翻新机，然后京东拿出证据证明自己清白，小佳总觉得这是京东的软文。23333，收藏量第二？水军刷上去的么？

文章评论量TOP20

top_1 = data.sort_values(['comment'],ascending = False)
top_1.index = range(1,1+len(top.index))
top_1.index.name = 'TOP20'
top_1[:20][['title','favorites','comment']]

评论量top20.PNG

有一些文章标题带问号，暗示读者去评论？
为什么三星的话题评论量这么多？小佳决定去找几篇关于三星的文章瞅瞅~
小佳去看了这几篇文章，简直一言难尽······
下面是其中两篇文章的评论：

三星文章评论.PNG
三星文章评论

诶，感觉是软文，虎嗅肯定收三星钱了。

最高产作家top10

data.name.value_counts()
data_name = data[data['name'] !='虎嗅']  # 删除虎嗅官方的文章
data_name.groupby('name')['title'].count().sort_values(ascending = False).head(10)

最高产作家top10.PNG

未完待续，虎嗅文章分析（二），敬请期待······

网友评论

本文标题：虎嗅文章分析（一）

本文链接：https://www.haomeiwen.com/subject/vfmklqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

虎嗅文章分析（一）

数据来源

数据导入

数据清洗

数据分析

数字变量分析

评论量、收藏数和字数长度之间的关系

文章收藏量TOP20

文章评论量TOP20

最高产作家top10

未完待续，虎嗅文章分析（二），敬请期待······

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

数据蛙数据分析每周作业

数据分析