美文网首页Python研究刚刚开始爬虫Python爬虫
Python爬虫:大规模爬取喜马拉雅电台详细音频数据

Python爬虫:大规模爬取喜马拉雅电台详细音频数据

作者: 梅花鹿数据 | 来源:发表于2017-06-18 09:03 被阅读3869次
喜马拉雅

一:前言

本次爬取的是喜马拉雅的热门栏目下全部电台的每个频道的信息和频道中的每个音频数据的各种信息,然后把爬取的数据保存到mongodb以备后续使用。这次数据量在70万左右。音频数据包括音频下载地址,频道信息,简介等等,非常多。
昨天进行了人生中第一次面试,对方是一家人工智能大数据公司,我准备在这大二的暑假去实习,他们就要求有爬取过音频数据,所以我就来分析一下喜马拉雅的音频数据爬下来。目前我还在等待三面中,或者是通知最终面试消息。 (因为能得到一定肯定,不管成功与否都很开心)


二:运行环境

  • IDE:Pycharm 2017
  • Python3.6
  • pymongo 3.4.0
  • requests 2.14.2
  • lxml 3.7.2
  • BeautifulSoup 4.5.3

三:实例分析

1.首先进入这次爬取的主页面http://www.ximalaya.com/dq/all/ ,可以看到每页12个频道,每个频道下面有很多的音频,有的频道中还有很多分页。抓取计划:循环84个页面,对每个页面解析后抓取每个频道的名称,图片链接,频道链接保存到mongodb。

热门频道

2.打开开发者模式,分析页面,很快就可以得到想要的数据的位置。下面的代码就实现了抓取全部热门频道的信息,就可以保存到mongodb中。

start_urls = ['http://www.ximalaya.com/dq/all/{}'.format(num) for num in range(1, 85)]
for start_url in start_urls:
    html = requests.get(start_url, headers=headers1).text
    soup = BeautifulSoup(html, 'lxml')
    for item in soup.find_all(class_="albumfaceOutter"):
        content = {
            'href': item.a['href'],
            'title': item.img['alt'],
            'img_url': item.img['src']
        }
        print(content)
分析频道

3.下面就是开始获取每个频道中的全部音频数据了,前面通过解析页面获取到了美国频道的链接。比如我们进入http://www.ximalaya.com/6565682/album/237771 这个链接后分析页面结构。可以看出每个音频都有特定的ID,这个ID可以在一个div中的属性中获取。使用split()和int()来转换为单独的ID。

频道页面分析

4.接着点击一个音频链接,进入开发者模式后刷新页面然后点击XHR,再点击一个json链接可以看到这个就包括这个音频的全部详细信息。

html = requests.get(url, headers=headers2).text
numlist = etree.HTML(html).xpath('//div[@class="personal_body"]/@sound_ids')[0].split(',')
for i in numlist:
    murl = 'http://www.ximalaya.com/tracks/{}.json'.format(i)
    html = requests.get(murl, headers=headers1).text
    dic = json.loads(html)
音频页面分析

5.上面只是对一个频道的主页面解析全部音频信息,但是实际上频道的音频链接是有很多分页的。

html = requests.get(url, headers=headers2).text
ifanother = etree.HTML(html).xpath('//div[@class="pagingBar_wrapper"]/a[last()-1]/@data-page')
if len(ifanother):
    num = ifanother[0]
    print('本频道资源存在' + num + '个页面')
    for n in range(1, int(num)+1):
        print('开始解析{}个中的第{}个页面'.format(num, n))
        url2 = url + '?page={}'.format(n)
        # 之后就接解析音频页函数就行,后面有完整代码说明
分页

6.全部代码
完整代码地址github.com/rieuse/learnPython

__author__ = '布咯咯_rieuse'

import json
import random
import time
import pymongo
import requests
from bs4 import BeautifulSoup
from lxml import etree

clients = pymongo.MongoClient('localhost')
db = clients["XiMaLaYa"]
col1 = db["album"]
col2 = db["detaile"]

UA_LIST = []  # 很多User-Agent用来随机使用可以防ban,显示不方便不贴出来了
headers1 = {} # 访问网页的headers,这里显示不方便我就不贴出来了
headers2 = {} # 访问网页的headers这里显示不方便我就不贴出来了

def get_url():
    start_urls = ['http://www.ximalaya.com/dq/all/{}'.format(num) for num in range(1, 85)]
    for start_url in start_urls:
        html = requests.get(start_url, headers=headers1).text
        soup = BeautifulSoup(html, 'lxml')
        for item in soup.find_all(class_="albumfaceOutter"):
            content = {
                'href': item.a['href'],
                'title': item.img['alt'],
                'img_url': item.img['src']
            }
            col1.insert(content)
            print('写入一个频道' + item.a['href'])
            print(content)
            another(item.a['href'])
        time.sleep(1)


def another(url):
    html = requests.get(url, headers=headers2).text
    ifanother = etree.HTML(html).xpath('//div[@class="pagingBar_wrapper"]/a[last()-1]/@data-page')
    if len(ifanother):
        num = ifanother[0]
        print('本频道资源存在' + num + '个页面')
        for n in range(1, int(num)+1):
            print('开始解析{}个中的第{}个页面'.format(num, n))
            url2 = url + '?page={}'.format(n)
            get_m4a(url2)
    get_m4a(url)


def get_m4a(url):
    time.sleep(1)
    html = requests.get(url, headers=headers2).text
    numlist = etree.HTML(html).xpath('//div[@class="personal_body"]/@sound_ids')[0].split(',')
    for i in numlist:
        murl = 'http://www.ximalaya.com/tracks/{}.json'.format(i)
        html = requests.get(murl, headers=headers1).text
        dic = json.loads(html)
        col2.insert(dic)
        print(murl + '中的数据已被成功插入mongodb')


if __name__ == '__main__':
    get_url()

7.如果改成异步的形式可以快一点,只需要修改成下面这样就行了。我试了每分钟要比普通的多获取近100条数据。这个源代码也在github中。

异步

五:总结

这次抓取的数据量在70万左右,这些数据后续可以进行很多研究,比如播放量排行榜、时间区段排行、频道音频数量等等。后续我将继续学习使用科学计算和绘图工具来进行数据分析,清洗的工作。

抓取的数据是频道的信息和频道中的每个音频具体信息。


Paste_Image.png Paste_Image.png
贴出我的github地址,我的爬虫代码和学习写的代码都放进去了,有喜欢的朋友可以点击 start follw一起学习交流吧!github.com/rieuse/learnPython

相关文章

网友评论

  • 什么名字才好用:这个好像爬不了喜马拉雅收费的音频啊 大神~
    梅花鹿数据:@什么名字才好用 对它app 抓包 就会能抓到部分付费的资源。
  • 953a3a323a12:现在的json里面data被隐藏了,怎么破,,,
    953a3a323a12: @布咯咯_rieuse 请问提取了最终的音频地址,就是就去就自动播放的地址后怎么处理才能下载到指定的本地磁盘。。。
    953a3a323a12: @布咯咯_rieuse 找到了,现在进去的时候后面少了个/,提取url的时候拼上去就好了,真坑,估计也是个反爬吧。。。
    梅花鹿数据:你看一下这个和之前不一样吗?
    http://www.ximalaya.com/tracks/4065217.json
  • 49a7182aef4a:楼主你貌似有个错误:
    在def another(url): 中
    for n in range(1, int(num)): 这段代码
    其中range(n,m)例遍不到m本身,只能例遍到m-1,所以你在抓取音频时会少一页。
    应该改为: for n in range(1, int(num)+1):
    不知道对不对,请指正!
    49a7182aef4a:@布咯咯_rieuse :blush:
    梅花鹿数据:@弗洛伊举 是需要加一的,我后面爬去的时候都是加一的。可能但是写文章的时候忘记了,谢谢。
  • Spareribs:直接获取到音频文件?
    Spareribs:@布咯咯_rieuse 原来如此,喜马竟然没有对音频加密
    梅花鹿数据: @Spareribs 把音频的相关信息都保存下来包括下载链接,如果想保存音频文件,在增加几行代码就行,我没必要下载下来,占我硬盘空间。
  • 程一川:请问下 爬了那么多数据 怎么保证爬取数据的准确性呢??如果爬取的数据不准确,那岂不是白爬了??
    梅花鹿数据: @willcyc 数据都是指定爬取的,能爬到就对了。在插入数据库前可以加个判断,比如选取的数据是否存在,字典中的字段是否有某些值,也可以先爬取测试一下等等。方法很多,我的理解有限,希望对你有帮助。
  • 梅花鹿数据:@三尺君_ 付费也可以破解了,刚找到,和我文章里面差不多的
    204334c524f0:同问,付费的地址怎么获取??
    小蜗牛Snail丶:付费的地址怎么弄?
    e9947c919517:想知道付费的怎么查找音频地址
  • 21602ca5355a:请问一下,有爬取付费信息吗
    梅花鹿数据: @三尺君_ 发个链接吧,我来看看,简单粗暴😂
    21602ca5355a:@布咯咯_rieuse 就是有的专辑是要付费,会有价格,能爬取吗,还是这个爬虫只爬取了具体每个音频的信息?
    梅花鹿数据: @三尺君_ 没用过喜马拉雅,不知道什么是付费信息😅😅,我就是爬取了全部热门分类中的音频信息,你举个例子我一下。

本文标题:Python爬虫:大规模爬取喜马拉雅电台详细音频数据

本文链接:https://www.haomeiwen.com/subject/adibqxtx.html