我爬取了汪峰146首歌词，却找不到他的梦想

作者: Mrchw | 来源:发表于2017-03-14 22:35 被阅读408次

我爬取了汪峰146首歌词，却找不到他的梦想
汪峰的歌词
爬取网易云音乐“三部曲”（二）：获取网易云音乐歌手歌词！
趁年轻时候多吃苦
生活随想
和弗兰克学写作第十期+小能正好+1/6章
一花一世界（11）：加德满都的风铃
你是我最爱的姑娘
Python爬虫运用之数据分析
用Python爬取网易云音乐歌曲

梦想

最近在学scrapy框架，看了不少大神的代码，还是感觉云里雾里，最好的学习就是实践，于是就有了今天的题目。我爬取了汪峰老师的146首歌词，并对他们进行分词、统计词频，然后用工具进行了可视化。

整个项目分3块：

歌词爬取与下载
歌词分词、统计词频
可视化处理

1.歌词爬取

主要用scrapy框架进行，像素级参照了@LEONYao的文章我爬了咪蒙的278篇文章做词频统计
歌词地址：https://mojim.com/cnh104044-A2.htm
上代码

import scrapy
from bs4 import BeautifulSoup
from ali.items import AliItem
class wang(scrapy.Spider):
    name = 'wang'
    def start_requests(self):
        start_url=['https://mojim.com/cnh104044-A2.htm']
        for url in start_url:
            yield scrapy.Request(url=url,callback=self.parse_getlink)


    def parse_getlink(self,response):
        n=0
        #print response.url
        soup = BeautifulSoup(response.body,'lxml')
        for i in soup.find_all('div',id='inS'):
            for j in i.find_all('a'):
               url = j.get('href')
               url = 'https://mojim.com' + str(url)
               yield scrapy.Request(url=url, callback=self.parse)
               n+=1
        print n

    def parse(self,response):
        item = AliItem()
        soup = BeautifulSoup(response.body,'lxml')
        for i in soup.find_all('dd',id='fsZx3'):
            item['content'] = i.get_text()
            yield item

2.词频统计

主要用jieba模块和停用词表，参照了@_CallMe靠谱叔用jieba分词提取关键词做漂亮的词云的代码

词频.PNG

3.可视化

你的梦想是什么？

我找不到了ORZ

词云中字体大小是根据词频的大小设置的，通过分析词频，我得到了个惊人的发现，竟然没有找到汪老师的梦想，本来打算洗洗睡的我，顿时垂死梦中惊坐起，发现有点对不起汪老师，于是我拿着放大镜，翻着词频统计最后才在第35位找到了梦想两个字，真是细思恐极啊~

推荐两个小工具：
词云工具很多人介绍过的 tagul
图云工具也是一款神器shape collage

另外，词频的统计比较粗糙，没有区分词性，目前还没找到好的解决办法。哪位大神如果有好的办法，望不吝赐教~

我爬取了汪峰146首歌词，却找不到他的梦想
最近在学scrapy框架，看了不少大神的代码，还是感觉云里雾里，最好的学习就是实践，于是就有了今天的题目。我爬取了...
汪峰的歌词
年轻时喜欢汪峰的歌，因为歌曲的节奏，让人亢奋；后来看到媒体对他的个人生活的报道，加之自己而立之年，不再喜欢他撕扯着...
爬取网易云音乐“三部曲”（二）：获取网易云音乐歌手歌词！
上一篇文章爬取了歌手的姓名和歌手的 id ，这篇文章根据上篇爬取的歌手 id 来直接下载对应歌手的歌词。这些我其实...
趁年轻时候多吃苦
“我不想变成虚空和废物，为了生命的尊严和梦想”。这是汪峰在他的歌曲《觉醒》中的两句歌词，此时此刻，驱车回家，刚巧听...
生活随想
有时候，梦想恰似河对岸的美景，看得到去不了，努力搜寻过河的船怎么也找不到；梦想也似空中阁楼，仰头可看却爬不上去，...
和弗兰克学写作第十期+小能正好+1/6章
一、刘小能2017年的梦想清单说到梦想，我第一反应就是汪峰老师的金句“你的梦想是什么？”。这要是以前，汪峰老师这...
一花一世界（11）：加德满都的风铃
加德满都的风铃歌词加德满都的风铃演唱：汪峰词曲：汪峰宝贝你知道我们这样争吵没有意义还不如静静地靠在我怀...
你是我最爱的姑娘
最近很迷汪峰的这首《你是我心爱的姑娘》，歌词旋律还有汪峰的声线，让我实在是太着迷。最近心里很不安，心情灰暗，是这首...
Python爬虫运用之数据分析
今天，我爬取了豆瓣，的《逃避可耻但很有用》的短评，可能队数据分析还不太了解，所以爬取什么都不太懂，也就爬取了...
用Python爬取网易云音乐歌曲
前天给大家分享了用Python网络爬虫爬取了网易云歌词，在文尾说要爬取网易云歌曲，今天小编带大家一起来利用Pyth...