美文网首页
站在巨人的肩膀上抓取vip视频播放地址

站在巨人的肩膀上抓取vip视频播放地址

作者: petyou | 来源:发表于2018-07-25 17:52 被阅读0次

站在巨人的肩膀上抓取vip视频播放地址

此文章仅仅为练习简单爬虫所作.

简单爬虫三步曲

1.明确需求,找到能够满足需求的网页

目标:给我一个官方播放vip电影的地址,输出一个能够放在浏览器直接播放电影的链接

如何解析各大主流视频网站的视频原播放地址,已经有巨人做好了.搜索视频解析 这里仅仅做个猜想:前期需要对播放视频网站进行抓包,筛掉无关请求,挨个分析剩下的.从后往前分析会更好,因为最终一定有可以可以播放的链接被抓包到,并且现在电影多数都是分段式的,一个电影可以分成成百上千个小段.这些小段视频链接的拼接规则则要去前面的请求分析得来,不多赘述.

我们搜索解析视频后直接选取第一个全民解析-vip视频在线解析 借助这个视频解析平台实现既定的需求.

2.分析网页html,定位目标数据
可以看到 屏幕快照 2018-07-25 下午2.54.33.png

在播放地址栏粘贴原官方播放地址后点击Go-点击开始解析稍等即可播放

看看点击时触发什么事件.右击按钮,选择检查即可定位到指定html元素位置.


点击定位.png

我们可以发现到一个叫做dihejk()的点击事件,分析后发现它最终要拿到下面三个option中的选中的一个的value.

 <option value="http://jx.598110.com/zuida.php?url=" selected="">③号通用vip引擎系统【稳定通用】</option>
 <option value="http://jx.598110.com/duo/index.php?url=" selected="">②号通用vip多线路系统【稳定通用】</option> 
 <option value="http://jx.598110.com/index.php?url=" selected="">①号通用vip引擎系统【稳定通用】</option> 

选择http://jx.598110.com/zuida.php?url= 尝试在 url后拼接上视频官方播放的地址,在浏览器中粘贴竟短暂等待后就直接播放了.

3.爬取整个html内容,写正则将目标数据揪出来

那么接下来的事情就是写代码爬取这个网站的html.将这三个 option value的值匹配出来.上代码

import re
from urllib import request


if __name__ == '__main__':
    # 视频原播放url  示例: http://www.iqiyi.com/v_19rr9tql50.html
    origin_vip_url = input('please input original url')

    # 这个网页中藏着用于解析视频播放url的url们
    qmail_url = 'http://www.qmaile.com/'

    # head配置
    head = {
        'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
        'Referer': "http://www.qmaile.com/"
    }

    # 创建一个request
    qmail_url_req = request.Request(url = qmail_url, headers = head)

    # 获得数据
    qmail_url_res = request.urlopen(qmail_url_req)

    # 转换成html
    res_html = qmail_url_res.read().decode('utf-8')

    # 正则
    pat = '<option value="(.*?)\?'

    # 找出三个用于解析视频地址的目标url们
    target_parse_urls = re.findall(pat, res_html, re.S)

    result_play_url = []
    if len(target_parse_urls) > 0:
        for each_parse_url in target_parse_urls:
            each_play_url = each_parse_url + '?' + 'url=' + origin_vip_url
            result_play_url.append(each_play_url)

    else:
        print('没有找到')

    # 最后一个比较好使
    print(result_play_url)


在命令行执行该模块,输入想解析的官方播放地址,即可生成三个直接播放地址.
换一个平台基本上也就是差不多的流程.借助别人的平台,实现这个需求似乎并不难.难的是解析视频的过程,下次再深入讨论

相关文章

  • 站在巨人的肩膀上抓取vip视频播放地址

    站在巨人的肩膀上抓取vip视频播放地址 此文章仅仅为练习简单爬虫所作. 简单爬虫三步曲 1.明确需求,找到能够满足...

  • 站在巨人肩膀上

    题目:站在巨人肩膀上 书目:《见识》 进度:全书 字数:757 001白天不懂夜的黑 因为成长环境不同,所处的阶段...

  • 站在巨人肩膀上

    一位50多岁的长者语重心长的提醒我:“你们现在的年轻人真是太幸福了,我们过去要想学点师傅的‘绝招’,起码要给师傅端...

  • 站在巨人的肩膀上

    回想起小时候的教室,黑色的,需要每周或每月刷墨汁的黑板,绿色的布满刻痕的双人书桌,和早已分辨不出颜色的长条...

  • 站在巨人的肩膀上

  • 站在巨人的肩膀上

    在古代,只智者——思想家——哲学家几乎是一个同义词。哲学,他本来的意义就在于通过事物的表象来把握事物的本质,通过规...

  • 站在巨人的肩膀上

    01坚信读书的力量 牛顿名言:如果我能比别人看得更远,是因为我站在巨人的肩膀上。 从书里能学到别人几十年的修行,可...

  • 站在巨人的肩膀上

    其实这个年代少有大师是有原因的,可能浮躁是一些人在成为大师路上越不过去的坎,对于我们也是一样,难的有潜心下来学习的...

  • 站在巨人的肩膀上

    文/雨竹 喝酒我喜欢朋友三两一起小酌,或多至6人,昨天与跑友喝酒聊天已至深夜,是共同的...

  • 站在巨人的肩膀上

    “我是站在巨人的肩膀上……” 听到这句话的第一反应是,有人又在装…… 这是现有教育对我们的洗脑,而使我们忽视了其巨...

网友评论

      本文标题:站在巨人的肩膀上抓取vip视频播放地址

      本文链接:https://www.haomeiwen.com/subject/swkmmftx.html