Python使用Requests抓取包图网小视频

作者: 8f3a71b379c1 | 来源:发表于2018-07-14 15:56 被阅读1003次

Python使用Requests抓取包图网小视频
Python:使用selenium模拟浏览器抓取数据
Python asyncio requests 异步爬虫
Python的requests包使用
Python爬取链家网上海市租房信息
Python 资料
学习Python:requests + BeautifulSou
python抓取网页
Python解析网页的几种其他好方法
自动代理网络环境下python爬虫设置

抓取包图网视频

目标抓取全站视频数据保存在本地，并以网站视频名命名视频文件。

分析网页数据结构

经分析我们可以发现总站数据我们可以从这四这选项下手

分析网页数据格式

image.png

网页数据为静态

抓取下一页链接

OK, 上代码!

import requests
from lxml import etree
import threading


class Spider(object):
    def __init__(self):
        self.headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"}
        self.offset = 1

    def start_work(self, url):
        print("正在爬取第 %d 页......" % self.offset)
        self.offset += 1
        response = requests.get(url=url,headers=self.headers)
        html = response.content.decode()
        html = etree.HTML(html)

        video_src = html.xpath('//div[@class="video-play"]/video/@src')
        video_title = html.xpath('//span[@class="video-title"]/text()')
        next_page = "http:" + html.xpath('//a[@class="next"]/@href')[0]
        # 爬取完毕...
        if next_page == "http:":
            return

        self.write_file(video_src, video_title)
        self.start_work(next_page)

    def write_file(self, video_src, video_title):
        for src, title in zip(video_src, video_title):
            response = requests.get("http:"+ src, headers=self.headers)
            file_name = title + ".mp4"
            file_name = "".join(file_name.split("/"))
            print("正在抓取%s" % file_name)
            with open(file_name, "wb") as f:
                f.write(response.content)

if __name__ == "__main__":
    spider = Spider()
    for i in range(0,3):
        # spider.start_work(url="https://ibaotu.com/shipin/7-0-0-0-"+ str(i) +"-1.html")
        t = threading.Thread(target=spider.start_work, args=("https://ibaotu.com/shipin/7-0-0-0-"+ str(i) +"-1.html",))
        t.start()

运行结果

同学们是不是so easy..!

(老师声明下, 仅限爬取绿色网站，其它颜色的不准的噢...)!
(原创文章，转载请注明出处)

Python使用Requests抓取包图网小视频
抓取包图网视频目标抓取全站视频数据保存在本地，并以网站视频名命名视频文件。分析网页数据结构经分析我们可以发现...
Python:使用selenium模拟浏览器抓取数据
有些js动态网站和反抓取的网站，对requests的检查比较严格, 使用requests包很难抓取数据。这时可以考...
Python asyncio requests 异步爬虫
#python #asyncio #requests #async/await #crawler 一、情景：抓取...
Python的requests包使用
个人专题目录 1. Python的requests包使用
Python爬取链家网上海市租房信息
使用Python进行上海市租房信息爬取，通过requests + Beautifulsoup对网页内容进行抓取和数...
Python 资料
Python最佳实践指南用Python Requests抓取知乎用户信息Flask+uwsgi+Nginx+Ubu...
学习Python:requests + BeautifulSou
初学Python,试着用requests + BeautifulSoup + MySQLdb抓取豆瓣图书TOP25...
python抓取网页
python 使用requests第三方库抓取网页HTML代码，并使用正则进行匹配检索代码以简书首页为例如果未...
Python解析网页的几种其他好方法
Python解析网页的几种其他好方法除了使用Requests + BeautifulSoup包。以及Beauti...
自动代理网络环境下python爬虫设置
Python的requests包可方便实现网络爬虫功能。今天在公司进行数据抓取时总是提示连接错误，分析发现，原来是...

网友评论

Simple_简约:报错
`Spider' object has no attribute 'write_file'
大神求解

8f3a71b379c1:Spider没有write_file这个对象估计是变量名错了

菜鸡天堂:不懂那“-1.html”为什么加‘-1’，我看网页url上没-1啊，怎么回事啊，把-1去了就报IndexError: list index out of range

8f3a71b379c1:那是url的 “杠”

086011f0621d:怎么不用vim编写,会被鄙视的

菜鸡天堂:不是vip但可以免费抓视频吗？

SHyH5:能抓一些网站上的vip视频吗

8f3a71b379c1:@SHyH5 凡是用户能够正常访问到的都是可以抓取的

Simon0903:这个就很6了老师~

前途有亮:下载好的视频文件可以用播放器正常播放吗？

8f3a71b379c1:@Simon0903 视频存储的数据就是二进制的呢不需要转了。

Simon0903:二进制转回来就可以

8f3a71b379c1:可以的

大西洋也如此平静:老师，为何不用scrapy?

大西洋也如此平静:@空山丶

666

8f3a71b379c1:@大西洋也如此平静因为老师明天会以这个案例上节福利课，通俗易懂的好。

c0c19c5a2e0e:666

8f3a71b379c1:@菜鸡天堂是的哈

菜鸡天堂:不是vip但可以免费抓视频吗？

8f3a71b379c1:谢谢

Simple_简约:报错
`Spider' object has no attribute 'write_file'
大神求解
8f3a71b379c1:Spider没有write_file这个对象估计是变量名错了
菜鸡天堂:不懂那“-1.html”为什么加‘-1’，我看网页url上没-1啊，怎么回事啊，把-1去了就报IndexError: list index out of range
8f3a71b379c1:那是url的 “杠”
086011f0621d:怎么不用vim编写,会被鄙视的
菜鸡天堂:不是vip但可以免费抓视频吗？
SHyH5:能抓一些网站上的vip视频吗
8f3a71b379c1:@SHyH5 凡是用户能够正常访问到的都是可以抓取的
Simon0903:这个就很6了老师~
前途有亮:下载好的视频文件可以用播放器正常播放吗？
8f3a71b379c1:@Simon0903 视频存储的数据就是二进制的呢不需要转了。
Simon0903:二进制转回来就可以
8f3a71b379c1:可以的
大西洋也如此平静:老师，为何不用scrapy?
大西洋也如此平静:@空山丶 666
8f3a71b379c1:@大西洋也如此平静因为老师明天会以这个案例上节福利课，通俗易懂的好。
c0c19c5a2e0e:666
8f3a71b379c1:@菜鸡天堂是的哈
菜鸡天堂:不是vip但可以免费抓视频吗？
8f3a71b379c1:谢谢

Python使用Requests抓取包图网小视频

抓取包图网视频

目标抓取全站视频数据保存在本地，并以网站视频名命名视频文件。

同学们是不是so easy..!

相关文章