Python爬取短视频网站资源并下载

作者: 浪漫矢志不渝 | 来源:发表于2021-04-10 14:19 被阅读0次

    目前大多数视频资源,网上基本都能拿到,今天遇到一个页面元素存在,但是源码中不存在的情况,所以常规的爬取无法拿到资源链接,所以我这里使用的是selenium,模拟浏览器的方式实现的。

    对比下页面元素及源码

    源码 页面元素

    可以发现,我们如果通过常规的爬取拿到的页面内容是不包含类pa pai里面的内容的,也就是拿不到视频资源链接。

    所以我使用了模拟浏览器的浏览方式取获取页面内容。

    类库包

    首先导入一些必须的类库包,具体使用哪些,自己可以优化使用。主要的还是selenium和lxml。

    声明和设置一些属性

    driver_path:驱动的路径(这个需要下载)。

    同时为了更快的获取资源,这里使用了谷歌的插件,来达到不加载图片节省爬取资源时间。

    path:存储资源的路径。

    host:爬取域名(一般用来拼接资源使用)。

    url:爬取目标页面(这里由于爬取的对象,比较正规,所以码了,不过看路径的也就懂了)

    然后就是启用配置驱动插件,设置必要的请求头,来获取页面内容了,同时创建本地存储目录。

    关键代码

    这里拿到页面内容后,使用插件格式化内容,并使用xpath获取目标数据源,基本就可以达到获取资源的目的了。

    这里说明的一点。如果是常用的requests方式取获取,根本就拿不到play_url。所以这里也就采取了两种方式结合来获取资源了。

    才用python不久也许有更好的方式。欢迎各路神仙指教。

    相关文章

      网友评论

        本文标题:Python爬取短视频网站资源并下载

        本文链接:https://www.haomeiwen.com/subject/azqnkltx.html