先看一下抖音的可视化图表。



一、数据抓取
前段时间抓取的数据。

可以给分享一下抓取的思路:
目前又很多爬虫在抓取抖音的数据了,与其自己劳神费力,不如直接从别人的抓取结果中提取数据,岂不是更简单易行。
二、数据清洗、处理
2.1 数据清洗
如下图:按照【数据】<【删除重复项】<【视频链接】<【删除重复项】去重即可。去重后,数据剩余16482条。

2.2字段拆分
需将提交时间拆分为:年、月、日、时、分、秒6个字段。操作步骤如下:
1.在【提交时间】字段后预留9个空列,以防止拆分数据覆盖其他数据。

2.选中【提交时间】字段,点击【数据】<【分列】<【固定宽度】,点击【下一步】。

3.添加分列线。

4.选择日期格式为:Y-M-D,选中“不导入此列”。

5. 点击“完成”,效果如下。删除多余列,编辑列字段。

6.最终完成效果如下。

2.3去除冗余
去除冗余主要是将【作者】和【描述】中的多余字段删除。操作步骤如下:
1.选中【作者】列,点击CTRL+H,将"抖音"和“的视频”替换为:空。


2.选中【描述】列,点击CTRL+H,将"简介:"替换为:空。

3.完成后的结果如下。

此时数据清洗和处理已完成,接下来可进行数据可视化。
三、数据可视化
3.1软件安装
下载地址:Tableau
试用期:15天
3.2导入数据、前期设置
1. 如下图:选中刚处理过的excel表并导入。


2. 点击工作标签,对左侧字段进行分组。

3.3抖音24小时播放、点赞、评论、分享数分布

3.4 抖音创作者排名

3.5抖音视频排名

好了3个关于抖音的可视化图表均已完成,回头一看,是不是 So Easy 呀?
网友评论