美文网首页思科DevNet
python最新采集B站美女,还不快学起来,下载可能下架视频

python最新采集B站美女,还不快学起来,下载可能下架视频

作者: 颜狗一只 | 来源:发表于2023-02-08 14:01 被阅读0次

    前言

    大家早好、午好、晚好吖 ❤ ~

    image

    这个页面大家认识吧~

    喜欢看吧

    image

    那我们今天就来采集一下它呀~

    image

    开发环境:

    • 版 本: python 3.8

    • 编辑器: pycharm 2022.3.2 专业版

    • requests >>> pip install requests

    • ffmpeg 音视频合成软件

    如果安装python第三方模块:

    1. win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests)回车

    2. 在pycharm中点击Terminal(终端) 输入安装命令

    实现一个案例的流程:

    一. 思路分析

    案例的分析 视频 media .mp4 .mp3 .m4a m3u8视频流

    .m4s: 视频/音频 格式

    数据来源分析: 找到视频内容

    network抓包

    查看网页源代码

    1. 如果在XHR当中没有找到数据

      搜索了, 筛选了 就是找不到

    2. *仔细观察网页源代码

    二. 代码实现(代码实现基本流程)

    1. 发送请求 使用代码的方式访问网站

    2. 获取数据 取出网页源代码

    3. 解析数据 提取视频链接

    4. 保存数据

    image

    代码展示

    导入模块

    import requests
    import re       # 正则表达式模块
    import json
    import pprint
    import subprocess
    import os
    

    伪装(请求头)

    headers = {
        # 用户信息
        "cookie": "buvid3=355AA300-6A61-04E5-A05C-E891D886F69632716infoc; b_nut=1675085932; i-wanna-go-back=-1; _uuid=387EA3810-FBF5-E92C-827E-2510B578C5B9A33232infoc; buvid4=15C69C98-F6A7-EC6A-872F-E69C1840DD6D33724-023013021-1pW1w45e5fZS9RtebDiGZw%3D%3D; nostalgia_conf=-1; CURRENT_FNVAL=4048; rpdid=|(kmJY|k))lY0J'uY~l|)lmY|; SESSDATA=17eb9f1a%2C1690782878%2C6a25c%2A22; bili_jct=4af9076b42f76603dfe4cf018ad2000f; DedeUserID=422789639; DedeUserID__ckMd5=fc4901c78719b545; CURRENT_QUALITY=80; b_ut=5; b_lsid=51ED8F105_1861C3EEC10; theme_style=light; is-2022-channel=1; sid=66dafqju; fingerprint=97ca5a8b555e63aca787c9cd27273c7e; buvid_fp_plain=undefined; buvid_fp=8cc52ae38b592ff26dc2b393eebd890b; PVID=2; innersign=1; bp_video_offset_422789639=758803412994228200",
        # 防盗链
        "referer": "https://www.****.com/",
        # 浏览器基本信息
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36"
    }
    

    发送请求

    url = 'https://www.***.com/video/BV1qv4y1k7UE/?vd_source=8f216a44bce0dbe14e3447c34c2ab3e2'
    response = requests.get(url, headers=headers)
    

    获取数据

    html_data = response.text
    

    解析数据

    playinfo=(.*?)</script>

    json_str = re.findall('__playinfo__=(.*?)</script>', html_data)[0]
    # <h1 .*?>(.*?)</h1>
    title = re.findall('<h1 .*?>(.*?)</h1>', html_data)[0]
    # Python基础 字典
    json_data = json.loads(json_str)
    # pprint.pprint(json_data)
    audio_url = json_data['data']['dash']['audio'][0]['baseUrl']
    print(audio_url)
    video_url = json_data['data']['dash']['video'][0]['baseUrl']
    print(video_url)
    

    保存数据

    audio_data = requests.get(audio_url, headers=headers).content
    with open(f'{title}.mp3', mode='wb') as f:
        f.write(audio_data)
    video_data = requests.get(video_url, headers=headers).content
    with open(f'{title}.mp4', mode='wb') as f:
        f.write(video_data)
    
    ffmpeg = f'ffmpeg -i {title}.mp4 -i {title}.mp3 -acodec copy -vcodec copy {title+"-out.mp4"}'
    subprocess.run(ffmpeg)
    os.remove(f'{title}.mp4')
    
    image

    ![


    image image

    尾语 💝

    好了,今天的分享就差不多到这里了!

    完整代码、更多资源、疑惑解答直接点击下方名片自取即可。

    有更多建议或问题可以评论区或私信我哦!一起加油努力叭(ง •_•)ง

    喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!

    image

    相关文章

      网友评论

        本文标题:python最新采集B站美女,还不快学起来,下载可能下架视频

        本文链接:https://www.haomeiwen.com/subject/ecyqkdtx.html