【开源框架】从Google百度到微博，优酷腾讯到抖音，这些爬虫你

【开源框架】从Google百度到微博，优酷腾讯到抖音，这些爬虫你

作者: 有三AI | 来源:发表于2018-07-13 23:12 被阅读40次

【开源框架】从Google百度到微博，优酷腾讯到抖音，这些爬虫你
抖音将危险到腾讯、优酷
想静静，很难！
视频如何推广和营销，来大神告诉你
删掉抖音等视频APP后，生活真的太tm爽了！
今天做点什么好呢？
赞我，奇迹！蔡叔说：在这里，不懂区块链的你也能玩转区块链平台！
高希霸世纪4号中烟古中雪茄赏析
腾讯开源微信数据库框架WCDB
九辫儿

文章首发于微信公众号《与有三学AI》

【开源框架】从Google百度到微博，优酷腾讯到抖音，这些爬虫你用过了吗？

今天给大家带来一篇关于数据爬虫使用的文章，该篇文章介绍的爬虫可以爬取Google、Bing、百度三大搜索引擎以及微博中的图片，也可爬取优酷、腾讯、抖音等各大视频网站的视频。

01概述

该篇文章主要是搜集了爬图片爬视频的git项目，并给出详细的使用过程，省去了很多找爬虫工具的时间。这些工具亲测暂时有效，早用早好，免得失效。后面我们的git也会更新一些爬虫，欢迎大家关注。

02图片爬虫

2.1 三大搜索引擎

https://github.com/sczhengyabin/Image-Downloader

可以按要求爬取百度、Bing、Google上的图片，并且提供了GUI方便操作，使用方法如下：

（1）根据该项目的readme配置适合自己电脑的环境就可以使用。使用方法是：python image_downloader_gui.py，会出现界面如下所示（该界面已在爬取状态）：

（2）如上图所示，keywords中可以输入自己要爬的关键字，多关键字用逗号隔开，这种方式输入英文关键字和中文关键字对于Windows和Linux是没有区别的，都可以按正常流程爬取。还有一种方式输入关键字是Load File，这种方式是把关键字写到一个txt文件，关键字之间也需用逗号隔开，用load的方式输入，这时候要注意对于txt文件中有中文关键字时，Windows系统爬取会因为编码的原因导致报错，从而爬取失败。【注】：一般建议在关键字不超过100个时，直接把txt中关键字复制粘贴到keywords，以这种方式爬取，避免不必要的error（适用于Windows系统）

（3）下图爬取的关键字是cat，rose，爬取的引擎是Google，爬取的图片将在Output所示的路径下，可根据Max number/keywords设置想要爬去的图片数量，最大值可设为2000

（4）cat，rose的爬取结果如下图，会生成以关键字为名的文件夹，爬取的图片在相应关键字的文件夹下

(5) 可以以同样的方式在Bing和百度上爬取图片，比如还是爬取cat，rose。如果不改变保存路径（Output），爬取得到的图片会和在Google上爬取的图片在同一个文件夹下，下图是在Google和Bing上爬取的图片。

这个爬虫足够满足小型项目第一批数据集的积累，还有就是如果在一个引擎上重复爬取同一个关键字，并不会出现命名冲突，因为会被覆盖。

2.2 微博

https://github.com/yAnXImIN/weiboPicDownloader.git，可以爬取微博某用户的图片，使用方法如下：

（1）该爬虫是由java写的，具体使用见下图

（2）经过对我自己微博的爬取，发现对于已设为私密的图片是不能爬取的，公开的图片爬取是比较完整的，结果如下图

以下两个爬虫也是与图片视频相关的，我附上git地址，有需要的可以了解一下。

https://github.com/iawia002/Lulu.githttps://github.com/EvilCult/Video-Downloader.git

03视频爬虫

3.1 annie

https://github.com/iawia002/annie.git

Annie是一款以go语言编码的视频下载工具，使用便捷并支持抖音、腾讯视频等多个网站视频和图像的下载，其支持站点如下图所示：

（1）根据readme中的安装说明安装好ffmpeg和annie，其中ffmpeg是用于融合分段下载的视频。

（2）图片下载：在终端运行以下命令，下载时会显示图片的信息和下载进度。图片下载不拘于之前展示的网站，但要提供图片详细的地址，精确到后缀名。

$ annie http://… (图片网址)

（3）视频下载：在终端运行以下命令，下载时同样会显示视频的信息和下载进度。对于存在多种清晰度的视频，可通过可选参数进行选择下载，默认下载当前网址的高清度视频，因此可先查看当前视频的信息，在通过可选参数进行有选择的下载。

$ annie ［可选参数］http://… (视频网址)

[可选参数]主要有以下几个，可进行组合搭配使用：

-i 仅展示信息，不进行下载

-p 下载当前网址的整个播放列表

-f 读取视频信息中的地址（用于控制下载视频精度）

视频下载会下载到当前目录下，且仅支持开源视频的下载，对于部分vip视频或付费视频，annie会被禁止访问其下载地址（所以即使有了annie，也不要想着我以后可以不花钱看电影了）。最后展示一下视频下载结果：

3.2 抖音爬虫

https://github.com/loadchange/amemv-crawler.git

amemv-crawler是一个Python脚本，可以下载指定抖音用户的全部视频(含收藏)，也可以下载指定主题(挑战)或音乐下的全部视频，运行环境为python3。使用方法如下：

（1）将项目下载到本地，目录如下图所示，修改其中的amemv-video-ripper.py，找到第131行的内置函数generateSignature，将所有调用该函数的语句注释后就可以使用。

（2）视频下载：在当前目录下执行命令。要同时下载多个抖音号的视频时，将网址以逗号隔开，download文件夹中会自动建立以抖音号为名的文件夹存储相应的抖音视频。

$ python amemv-video-ripper.py https://…

更多，欢迎到知乎专栏去投稿与交流，配套资料将放出在github，可扫描二维码进入。

打一个小广告，我的计算机视觉公开课《AI 图像识别项目从入门到上线》上线了，将讲述从零基础到完成一个实际的项目到微信小程序上线的整个流程，欢迎交流捧场。

如果想加入我们，后台留言吧

更多请移步

1，我的gitchat达人课

龙鹏的达人课

2，AI技术公众号,《与有三学AI》

一文说说这十多年来计算机玩摄影的历史

3，以及摄影号，《有三工作室》

冯小刚说，“他懂我”

相关文章

【开源框架】从Google百度到微博，优酷腾讯到抖音，这些爬虫你
文章首发于微信公众号《与有三学AI》【开源框架】从Google百度到微博，优酷腾讯到抖音，这些爬虫你用过了吗...
抖音将危险到腾讯、优酷
今天看了抖音的网页版，大为震惊，相信不久会渗透到各行各业。就拿视频为例，电视剧和电影的正常播放速度已经不能满足年...
想静静，很难！
在海量信息包围的我们，你时不时打开微信，看看朋友的活动状态；看完朋友圈又刷刷抖音；刷完抖音又看优酷、腾讯视频；最后...
视频如何推广和营销，来大神告诉你
视频上传地方：第一梯队：电脑：优酷，新浪微博，腾讯的，爱奇艺。手机上的视频软件（快手，小影，美拍，抖音，不能太...
删掉抖音等视频APP后，生活真的太tm爽了！
01 2019年5月21日，我终于删掉了抖音、爱奇艺、优酷、腾讯视频等视频软件。这些视频软件，真的让人上瘾。从M...
今天做点什么好呢？
从腾讯到爱奇艺，从抖音到B站，再从微博到公众号，最后在众多的音乐软件里打开网易云，随机播放一首今日推荐。做点什...
赞我，奇迹！蔡叔说：在这里，不懂区块链的你也能玩转区块链平台！
微博、公众号、今日头条、百家号、大鱼号……知乎问答、悟空问答、手百问答……优酷、西瓜、火山、抖音……豆瓣、简书、微...
高希霸世纪4号中烟古中雪茄赏析
更多视频请访问腾讯视频、优酷视频，搜索古中雪茄，雪茄123 关注雪茄123可百度雪茄123官网或者微信公众号及微博...
腾讯开源微信数据库框架WCDB
腾讯开源微信数据库框架WCDB 腾讯开源微信数据库框架WCDB
九辫儿
理应到了这岁数不会再迷个啥，这个春节居然被俩说相声唱歌怼怼逗嘴的九辫儿给弄得充了优酷会员，优酷头条抖音微博的刷德云...

网友评论

有三AI学院

本文标题：【开源框架】从Google百度到微博，优酷腾讯到抖音，这些爬虫你

本文链接：https://www.haomeiwen.com/subject/dufepftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

有三AI学院

关于我们|服务条款|联系我们|【开源框架】从Google百度到微博，优酷腾讯到抖音，这些爬虫你|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！