美文网首页
【python】跳舞的视频如何下载,分段如何合成~

【python】跳舞的视频如何下载,分段如何合成~

作者: 颜狗一只 | 来源:发表于2022-04-15 16:53 被阅读0次

    前言

    嗨喽!大家好呀,这里是魔王~**

    模块使用:

    • requests >>> pip install requests (数据请求 第三方模块)
    • re # 正则表达式 去匹配提取数据
    • json

    开发环境:

    • Python 3.8 解释器
    • Pycharm 2021.2 版本 建议

    win + R 输入cmd 输入安装命令 pip install 模块名 如果出现爆红 可能是因为 网络连接超时 切换国内镜像源

    爬虫案例实现, 固定思路流程:

    一. 明确需求

    采集视频内容, 先分析一个视频是从哪里获取
        通过开发者工具进行抓包分析, 分析视频数据可以从哪里获取
    A站这个视频内容 格式 m3u8视频内容
    当我们网站视频格式 是m3u8的时候, 有一个专门存放所有ts视频片段的文件
    

    二. 代码实现步骤: 发送请求 获取数据 解析数据 保存数据

    1. 发送请求, 对于视频播放页面url地址发送请求
    2. 获取数据, 获取服务器返回response响应数据
    3. 解析数据, 提取我们想要的数据内容 视频标题 以及 m3u8 链接
    4. 发送请求, 对于 m3u8 链接 发送请求
    5. 获取数据, 获取服务器返回response响应数据
    6. 解析数据, 提取所有ts文件url [视频片段]
    7. 保存数据, 把所有视频保存下来, 然后合成为一个整体视频内容
    

    代码

    import requests  # 数据请求模块 pip install requests  在cmd里面 输入命令
    import re  # 导入正则表达式模块 内置模块
    import json
    import pprint  # 格式化输出模块
    
    for page in range(1, 17):
        print(f'--------------------正在采集第{page}页的数据内容--------------------')
        list_url = 'https://www.acfun.cn/u/45321802'
        # 批量 ctrl + R 选中目标
        data = {
            'quickViewId': 'ac-space-video-list',
            'reqID': page + 1,
            'ajaxpipe': '1',
            'type': 'video',
            'order': 'newest',
            'page': page,
            'pageSize': '20',
            't': '1649944573765',
        }
        headers = {
            # 'cookies': '你的cookie',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.75 Safari/537.36'
        }
        # get请求 有一个params参数
        # post请求 data 参数
        response = requests.get(url=list_url, params=data, headers=headers)
        # print(response.text)
        id_list = re.findall('a href=.*?ac(.*?)"', response.text)
        for index in id_list:
            video_id = index.replace('\\', '')
            """
            1. 发送请求, 对于视频播放页面url地址发送请求
                用python代码去模拟浏览器 对于 url地址发送请求
            video 
            """
            url = f'https://www.acfun.cn/v/ac{video_id}'  # 确定请求url地址
            # 请求头 用伪装python代码, 为了被服务器识别出来 是爬虫程序 一种简单反反爬手段 当你加ua 得到数据的时候, 可能要cookie
            # 需要登陆才能获得数据的, 需要加cookie 用户信息, 常用于检测是否登陆账号
            headers = {
                # 'cookies': '你的cookie',
                'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.75 Safari/537.36'
            }
            # 通过requests模块里面get请求方式, 对于url地址发送请求, 并且携带上headers请求头伪装, 最后用response自定义变量接收返回数据
            response = requests.get(url=url, headers=headers)
            # 2. 获取数据
            # print(response.text)
            # 3. 解析数据 通过re模块里面findall的方法 在response.text里面去找寻 标题数据 re.S 匹配换行
            # 正则表达式提取出来的数据返回都是列表数据类型  实现过程不重要, 方式方法很多, 你喜欢用哪个都可以 只要可以取到数据都OK
            title = re.findall('<title >(.*?) - AcFun弹幕视频网 - 认真你就输啦 \(\?ω\?\)ノ- \( ゜- ゜\)つロ</title>', response.text)[0]
            video_info = re.findall('window.pageInfo = window.videoInfo = (.*?);', response.text)[0]
    
            # print(video_info) # 字符串转成字典 怎么转  最稳妥查看数据类型 直接用 type() 这个函数去查看
            json_data = json.loads(video_info)
            # pprint.pprint(json_data)
            # 字典取值 根据冒号左边的内容(键) 提取冒号右边的内容(值)
            m3u8_url = \
            json.loads(json_data['currentVideoInfo']['ksPlayJson'])['adaptationSet'][0]['representation'][0]['backupUrl'][0]
            # print(title)
            # print(m3u8_url)
            # 通过requests模块里面get请求方式, 对于m3u8_url地址发送请求, 并且携带上headers请求头伪装, 获取响应体文本数据, 用m3u8_data自定义变量接收数据
            m3u8_data = requests.get(url=m3u8_url, headers=headers).text
            # split() 字符串分割
            m3u8_data = re.sub('#E.*', '', m3u8_data).split()
            # print(m3u8_data)
            for ts in m3u8_data:
                ts_url = 'https://ali-safety-video.acfun.cn/mediacloud/acfun/acfun_video/' + ts
                ts_content = requests.get(url=ts_url, headers=headers).content
                # ab 是什么意思 a追加保存, b 二进制数据 ab 以二进制数据追加保存
                with open('video\\' + title + '.mp4', mode='ab') as f:
                    f.write(ts_content)
            print('视频保存完成: ', title)
    
    

    视频教程

    https://www.bilibili.com/video/BV1944y137YV?share_source=copy_web

    尾语

    好了,我的这篇文章写到这里就结束啦!

    有更多建议或问题可以评论区或私信我哦!一起加油努力叭(ง •_•)ง

    喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!

    相关文章

      网友评论

          本文标题:【python】跳舞的视频如何下载,分段如何合成~

          本文链接:https://www.haomeiwen.com/subject/ilrqertx.html