Python爬虫实战：下载喜马拉雅音频文件

Python爬虫实战：下载喜马拉雅音频文件

作者: dc260c55dcc9 | 来源:发表于2019-05-22 09:38 被阅读1次

Python爬虫实战：下载喜马拉雅音频文件
Python爬虫实战：下载喜马拉雅音频文件
Python爬虫开发与项目实战
python各类爬虫案例，爬到你手软！（附代码）
《Python爬虫开发与项目实战》.pdf 免费下载
Python3 网络爬虫与开发实战
Python网络爬虫实战之十四：Scrapy结合scrapy-s
Python网络爬虫实战之七：动态网页爬取案例实战 Seleni
Python网络爬虫实战之八：动态网页爬取案例实战 Seleni
Python网络爬虫实战之九：Selenium进阶操作与爬取京东

学习，是一个长期的过程。学习的方式也是有很多种的，在家里时间有空闲时间的话可以选择读书，如今在手机上看电子书也方便。小编最近看电子书比较多，感觉自己的视力明显下降了。停下来不学习又不行，我想到用听的方式去学习，如今各平台上音频文件还是比较丰富的。大家听得比较多的应该就是喜马拉雅这个平台了。今天我用 Python 把喜马拉雅的音频通过输入关键字查询出来并下载保存在本地。

保存效果

我通过「腾讯传」关键字查询出 6 个音频专辑，以下为其中一个专辑里的 7 个音频文件。

学习python爬虫过程中有不懂的可以加入我的python零基础系统学习交流秋秋qun：前面是934，中间109，后面是170，与你分享Python企业当下人才需求及怎么从零基础学习Python，和学习什么内容。相关学习视频资料、开发工具都有分享

项目环境

语言：Python3

编辑器：Pycharm

程序结构

程序主要由四部分组成：

gethtml()：提取页面 html 信息。

getid()：获取通过关键字搜索的音频专辑 ID 列表。

downm4a()：下载对应专辑 ID 下的音频文件。

mkdir()：把下载的音频保存到相应的文件夹中。

页面分析

我们要下载音频文件，首先我们得要找到下载音频的 url，我们打开浏览器自带的调试工具（我用的是 Chrome），通过快捷键 F12 可快速打开调试工具。调试器切到 Network，我以我最近刚看完的「腾讯传」为例，点击专辑封面中间的播放按钮，该专辑中音频信息中都在 json 格式的数据中。一共有 7 个音频文件。

任意展开一个音频的详细信息，详细信息包括了音频文件的标题和下载链接。找到了音频的下载链接就可以下载音频了，接下来的工作的都围绕怎么获取音频文件的下载链接展开。

获取页面源码

我们先定义一个获取页面 html 信息的函数。该函数中加入浏览器表头信息 headers，为了安全起见，用的是代理 IP，有兴趣的可以自己做个 IP 代理池，IP 失效后自动替换。

获取专辑信息

接下来我们需要获取专辑的 ID，因为音频的下载链接是通过专辑 ID 拼接的，我们看下刚才包含音频文件名称和下载链接信息的 Headers，可看到专辑链接的组成中 albumId 就是专辑 ID，后面的表示当前页面数和页面最多存放的音频数。

专辑的 ID 信息包含在通过关键字搜索的信息里面。

通过 BeautifulSoup 在页面中提取专辑的 ID 信息，顺便也把专辑标题信息提取出来，当做等下创建专辑目录的名称，主要代码如下。

获取页面数

上面的方法获取专辑 ID 信息，接下来我们需要知道专辑下共用多少页的音频文件，我们通过音频总数除以 30 来获取页面数量。音频总数的信息在音频文件列表的 data 里面，下图我用了音频文件数量比较多「明朝那些事儿」举例，一共 268 个音频文件。

有了音频总数，每页的音频数量是 30 个，这样我们就可以算出页面的数量了，分为 3 种情况判断：总数小于或等于 30 个、总数大于 30 个且是 30 的倍数、总数大于 30 个且不是 30 的倍数，相关代码如下。

下载音频文件

专辑 ID、专辑名称、页面数量都有了，接下来就可以下载音频文件了。下载音频时，当音频不足 30 个，需要做下异常处理。当音频文件是付费文件时，无法下载。这时做一个判断，音频的下载链接为 null 或者 None 时，跳出循环去爬取下一个专辑的文件。

音频的下载链接为 null 或者 None 的情况，这里以「明朝那些事儿」为例，通过「明朝那些事儿」关键字爬取的其中一个专辑的音频文件，总共只爬取了 50 个，后面的音频文件都没有提供下载链接，所以无法下载。

建立目录存放音频

为了让下载下来的音频文件有序的存放在以专辑名称命名的文件夹下，我们用代码自动创建目录并把对应文件下载到该目录下。

后记

本文的目的是把喜马拉雅上免费的音频下载到本地，传到手机里，方面大家保护视力的情况下随时都可以学习。当然，流量充足的也可以在 APP 上在线听。

相关文章

Python爬虫实战：下载喜马拉雅音频文件
学习，是一个长期的过程。学习的方式也是有很多种的，在家里时间有空闲时间的话可以选择读书，如今在手机上看电子书也方便...
Python爬虫实战：下载喜马拉雅音频文件
学习，是一个长期的过程。学习的方式也是有很多种的，在家里时间有空闲时间的话可以选择读书，如今在手机上看电子书也方便...
Python爬虫开发与项目实战
下载地址：Python爬虫开发与项目实战
python各类爬虫案例，爬到你手软！（附代码）
先来看看有哪些项目呢： python爬虫小工具（文件下载助手）爬虫实战（笔趣看小说下载）爬虫实战（VIP视频下载）...
《Python爬虫开发与项目实战》.pdf 免费下载
下载地址：《Python爬虫开发与项目实战》.pdf
Python3 网络爬虫与开发实战
下载地址：python3 网络爬虫与开发实战
Python网络爬虫实战之十四：Scrapy结合scrapy-s
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...
Python网络爬虫实战之七：动态网页爬取案例实战 Seleni
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...
Python网络爬虫实战之八：动态网页爬取案例实战 Seleni
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...
Python网络爬虫实战之九：Selenium进阶操作与爬取京东
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...

网友评论

本文标题：Python爬虫实战：下载喜马拉雅音频文件

本文链接：https://www.haomeiwen.com/subject/yyzezqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

大数据爬虫Python AI Sql

python学习圈

Python学习资料整理

热点阅读

大数据爬虫Python AI Sql

python学习圈

Python学习资料整理

关于我们|服务条款|联系我们|Python爬虫实战：下载喜马拉雅音频文件|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！