初探抖音的数据采集，竟然简单到无脑！

作者: 张佳_喜新 | 来源:发表于2018-03-27 08:59 被阅读3176次

初探抖音的数据采集，竟然简单到无脑！
抖音相关
抖音数据采集
教你快速批量采集下载无水印快手、抖音上的图片和视频
Hook抖音用户信息id,secUid
数据采集-Logstash初探
蚂蚁创客：抖音粉丝量第一原来是她？
一篇文章教会你用Python抓取抖音app热点数据
抖音数据自动化采集(多开)
9.1-9.7抖音内容数据采集

最近几天抖音有点火，火到新榜大号上周（3.20-3.25）7天发布了5篇关于抖音的报道，今天还专门建了个“微微一抖”的群。

作为一个数据狗，也该从数据层面研究一下这“一抖”了。

通过分享视频网页源代码获取数据

所有互联网能看到的数据都是可以采集的，抖音肯定也不例外。

普通情况下，我们使用爬虫采集网络信息的时候是基于其网站的前端代码，也就是你在任意位置鼠标右键—查看网页源代码看到的那些。

抖音的视频都在APP上，我们没法查看他的源代码。好在抖音可以分享到微信然后使用浏览器打开查看。

我们右键查看页面源代码，是可以看到该视频数据的：

源代码中我们可以很清楚的看到视频名称和作者的信息。

有趣的是，本来其他人不可见的视频播放数据，前端代码中也做了展示。截图中"play_count":138、"aweme_id":"6536834751905402116"、"comment_count":1和"share_count":1分别代表了该视频的播放数、视频ID、评论数和分享数。

查看该分享视频的url构造可以发现非常的简单，仅由www.douyin.com、share、video 和6536834751905402116四个部分组成，其中前三部分是固定的，唯一变化的是最后一部分视频ID。按照正常的爬虫逻辑，我们只需要使用脚本不断递增该ID，即可实现遍历所有的视频。

实操发现，简单递增视频ID构造的URL视频并不存在。看来抖音对视频的ID是做了加密处理的。尝试分享了几个视频发现，ID有一定的规律，但数据量较小，无法做到解密。时间有限，我们下次再研究视频ID的递增逻辑。

抓包获取视频数据

除了通过网页的源代码采集网络数据外，对于APP信息的采集多通过抓包实现。所谓“抓包”，就是截获手机与服务器之间通信的数据，进行解析获取通信间传递的数据。

我们使用常用的抓包工具Fiddler，获取手机上抖音APP获取视频过程的数据进行分析。

抓包软件截获了手机与aweme.snssdk.com通信的过程，百度该链接确认其为今日头条产品：

开始的几个视频请求地址是相同的，多划几次后发现增加了一个https://aweme.snssdk.com/aweme/v1/feed/?XXXXX的请求地址。这就好玩了，我们都知道feed是流的意思，百度的信息流新闻地址也是feed.baidu.com，可以初步判定，从这个地址请求的数据应该是“流”式的，也就是说至少包含多个视频信息！

解包后发现果然不出所料！

json中包含了作者、视频和背景音乐等多种信息。

高级的是，一次请求，服务器返回了6个视频信息！

和请求规律相同，每下划5次会向feed地址发起一次请求。

剩下的，就可以交给脚本，“躺在床上”无限下划了。

加一些PS：

大量数据背后，理论上我们可以分析抖音的推荐逻辑，毕竟每6个视频一组打包下载，肯定存在某种规律；

采集的信息中包含了作者的性别、年龄、地理位置、学校等信息，用户画像也是可以分析出来的；

追踪作者信息，可以深层次挖掘作者的作品数、获赞数、粉丝数等数据，榜单也可以来一发了；

最开始网页源代码采集的时候我们知道，视频的实际阅读量也是可以采集的，那么视频曝光量也就知道了，曝光量=广告价值；

抖音应该快采取措施封停这种粗暴的采集了，要上车的赶紧……

初探抖音的数据采集，竟然简单到无脑！
最近几天抖音有点火，火到新榜大号上周（3.20-3.25）7天发布了5篇关于抖音的报道，今天还专门建了个“微微一抖...
抖音相关
如何玩转抖音？2019年抖音短视频营销内部报告抖音APP的视频数据采集方法
抖音数据采集
教你快速批量采集下载无水印快手、抖音上的图片和视频
说到素材采集很多都会在百度上采集，现在短视频已经愈加火热，很多都引用抖音、快手里面的视频作为素材资料。要采集抖音、...
Hook抖音用户信息id,secUid
抖音版本16.3.0，hook方式xposed 在采集APP数据的时候很多接口都会用到userId和sec_uid...
数据采集-Logstash初探
outline 什么是Logstash Logstash安装运行及常用命令输入输出过滤什么是Logstas...
蚂蚁创客：抖音粉丝量第一原来是她？
现如今提到用户流量的最大“高地”，非“抖音”莫属。据抖音公开数据显示，截止到2019年1月，抖音国内日活用户突破...
一篇文章教会你用Python抓取抖音app热点数据
今天给大家分享一篇简单的安卓app数据分析及抓取方法。以抖音为例，我们想要抓取抖音的热点榜数据。要知道，这个数据...
抖音数据自动化采集(多开)
本文仅供学习交流使用，如侵立删！企鹅： 1033383881 环境：win10 64位python 3.6.1a...
9.1-9.7抖音内容数据采集
9.1-9.7数据汇总：自然流量 1000-2000多播放量（5条） 1、寂静岭海报：23-30岁的男性观看居多 ...

网友评论

04bcfa13fde1:没看懂，抖音怎么收集到用户感兴趣什么类型的视频的？

fbdff436616f:抖音没有榜单这种东西，就想说能不能写个脚本爬虫把每个用户的粉丝数量，点赞数爬下来做成榜单，但是因为是app，没找到url，只能人工收集。牛逼了大兄弟。

杜泽旭:想的太简单了，as字段是根据ts时间戳加密的

张佳_喜新:@十一_f2d6 我真的没有写“暴力”。。请问你从哪里看到的暴力？

bd9b1080c408:真的没有看出来暴力在哪。。入门级的教程请问如何暴力？

张佳_喜新:可以解密

葵花LH:先有法制基础才有隐私保护。

591d1b30b398:记得下滑刷新是有次数限制的吧？
每次我多次下滑就到底了，得关掉再重新打开app

田鸡爸爸:@陈鲜森厉害了我从来没滑到底过

程序猿界的cai渣渣:应该让抖音看到

04bcfa13fde1:没看懂，抖音怎么收集到用户感兴趣什么类型的视频的？
fbdff436616f:抖音没有榜单这种东西，就想说能不能写个脚本爬虫把每个用户的粉丝数量，点赞数爬下来做成榜单，但是因为是app，没找到url，只能人工收集。牛逼了大兄弟。
杜泽旭:想的太简单了，as字段是根据ts时间戳加密的
张佳_喜新:@十一_f2d6 我真的没有写“暴力”。。请问你从哪里看到的暴力？
bd9b1080c408:真的没有看出来暴力在哪。。入门级的教程请问如何暴力？
张佳_喜新:可以解密
葵花LH:先有法制基础才有隐私保护。
591d1b30b398:记得下滑刷新是有次数限制的吧？
每次我多次下滑就到底了，得关掉再重新打开app
田鸡爸爸:@陈鲜森厉害了我从来没滑到底过
程序猿界的cai渣渣:应该让抖音看到

初探抖音的数据采集，竟然简单到无脑！

通过分享视频网页源代码获取数据

抓包获取视频数据

加一些PS：

相关文章

初探抖音的数据采集，竟然简单到无脑！

抖音相关

抖音数据采集

教你快速批量采集下载无水印快手、抖音上的图片和视频

Hook抖音用户信息id,secUid

数据采集-Logstash初探

蚂蚁创客：抖音粉丝量第一原来是她？

一篇文章教会你用Python抓取抖音app热点数据

抖音数据自动化采集(多开)

9.1-9.7抖音内容数据采集

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

「抖音」有多厉害？

@IT·互联网

@产品

Python

Python3自学爬虫实战