2019-11-18 爬虫网易云音乐获取所有歌手

作者: 一只失去梦想的程序猿 | 来源:发表于2019-11-18 18:40 被阅读0次

2019-11-18 爬虫网易云音乐获取所有歌手
数据分析细数周杰伦不能说的秘密
Python 爬虫获取网易云音乐歌手信息
网易云音乐评论抓取实验(2)朴素贝叶斯入门：通过概率对评论情绪分
华语乐坛情歌王子
产品日记4 网易云音乐的一点小细节
喜欢网易云的都是什么人群？今天爬取网易云数据并且可视化展示！
Hexo添加音乐
网易云音乐--年度最爱歌手
网易云音乐在线获取

目标网址：https://music.163.com/#/discover/artist
简单分析一下网页：

image.png
推荐歌手这跟下面的是有重复的，所以我们直接忽略掉。
而下面的华语、欧美等跟网址的id是对应的，姓名开头字母ABCD则是跟initial对应。
很简单就可以找出所有的网址

idList = [1001, 1002, 1003, 2001, 2002, 2003, 6001, 6002, 6003, 7001, 7002, 7003, 4001, 4002, 4003]
initialList = [65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90]
for i in idList:
    for j in initialList:
        url = 'http://music.163.com/discover/artist/cat?id=' + str(i) + '&initial=' + str(j)
        print(url)

然后我们单独处理每个网址，获取所有的歌手名字及对应id

image.png

歌手名很简单，都是a链接class='nm nm-icn f-thide s-fc0'，所以：

f=open('163.txt','w+',encoding='utf-8')
def get_artists(url):
    headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
    r = requests.get(url, headers=headers,verify=False)
    soup = BeautifulSoup(r.text, 'lxml')
    for artist in soup.find_all('a', attrs={'class': 'nm nm-icn f-thide s-fc0'}):
        artist_name = artist.string
        artist_id = artist['href'].replace('/artist?id=', '').strip()
        try:
            f.write(artist_id+'----'+artist_name+'\n')
        except Exception as msg:
            print(msg)

结果如图：