美文网首页python学习工具技能小助手爬虫专题
我爬取了汪峰146首歌词,却找不到他的梦想

我爬取了汪峰146首歌词,却找不到他的梦想

作者: Mrchw | 来源:发表于2017-03-14 22:35 被阅读408次
梦想

最近在学scrapy框架,看了不少大神的代码,还是感觉云里雾里,最好的学习就是实践,于是就有了今天的题目。我爬取了汪峰老师的146首歌词,并对他们进行分词、统计词频,然后用工具进行了可视化。

整个项目分3块:

  • 歌词爬取与下载
  • 歌词分词、统计词频
  • 可视化处理

1.歌词爬取

主要用scrapy框架进行,像素级参照了@LEONYao的文章我爬了咪蒙的278篇文章做词频统计
歌词地址:https://mojim.com/cnh104044-A2.htm
上代码

import scrapy
from bs4 import BeautifulSoup
from ali.items import AliItem
class wang(scrapy.Spider):
    name = 'wang'
    def start_requests(self):
        start_url=['https://mojim.com/cnh104044-A2.htm']
        for url in start_url:
            yield scrapy.Request(url=url,callback=self.parse_getlink)


    def parse_getlink(self,response):
        n=0
        #print response.url
        soup = BeautifulSoup(response.body,'lxml')
        for i in soup.find_all('div',id='inS'):
            for j in i.find_all('a'):
               url = j.get('href')
               url = 'https://mojim.com' + str(url)
               yield scrapy.Request(url=url, callback=self.parse)
               n+=1
        print n

    def parse(self,response):
        item = AliItem()
        soup = BeautifulSoup(response.body,'lxml')
        for i in soup.find_all('dd',id='fsZx3'):
            item['content'] = i.get_text()
            yield item 

2.词频统计

主要用jieba模块和停用词表,参照了@_CallMe靠谱叔 用jieba分词提取关键词做漂亮的词云的代码

词频.PNG

3.可视化

你的梦想是什么? 我找不到了ORZ

词云中字体大小是根据词频的大小设置的,通过分析词频,我得到了个惊人的发现,竟然没有找到汪老师的梦想,本来打算洗洗睡的我,顿时垂死梦中惊坐起,发现有点对不起汪老师,于是我拿着放大镜,翻着词频统计最后才在第35位找到了梦想两个字,真是细思恐极啊~

推荐两个小工具:
词云工具 很多人介绍过的 tagul
图云工具 也是一款神器shape collage

另外,词频的统计比较粗糙,没有区分词性,目前还没找到好的解决办法。哪位大神如果有好的办法,望不吝赐教~

相关文章

  • 我爬取了汪峰146首歌词,却找不到他的梦想

    最近在学scrapy框架,看了不少大神的代码,还是感觉云里雾里,最好的学习就是实践,于是就有了今天的题目。我爬取了...

  • 汪峰的歌词

    年轻时喜欢汪峰的歌,因为歌曲的节奏,让人亢奋;后来看到媒体对他的个人生活的报道,加之自己而立之年,不再喜欢他撕扯着...

  • 爬取网易云音乐“三部曲”(二):获取网易云音乐歌手歌词!

    上一篇文章爬取了歌手的姓名和歌手的 id ,这篇文章根据上篇爬取的歌手 id 来直接下载对应歌手的歌词。这些我其实...

  • 趁年轻时候多吃苦

    “我不想变成虚空和废物,为了生命的尊严和梦想”。这是汪峰在他的歌曲《觉醒》中的两句歌词,此时此刻,驱车回家,刚巧听...

  • 生活随想

    有时候,梦想恰似河对岸的美景,看得到去不了,努力搜寻过河的船怎么也找不到; 梦想也似空中阁楼,仰头可看却爬不上去,...

  • 和弗兰克学写作第十期+小能正好+1/6章

    一、刘小能2017年的梦想清单 说到梦想,我第一反应就是汪峰老师的金句“你的梦想是什么?”。这要是以前,汪峰老师这...

  • 一花一世界(11):加德满都的风铃

    加德满都的风铃歌词 加德满都的风铃 演唱:汪峰 词曲:汪峰 宝贝 你知道我们这样争吵没有意义 还不如静静地靠在我怀...

  • 你是我最爱的姑娘

    最近很迷汪峰的这首《你是我心爱的姑娘》,歌词旋律还有汪峰的声线,让我实在是太着迷。最近心里很不安,心情灰暗,是这首...

  • Python爬虫运用之数据分析

    今天,我爬取了豆瓣,的《逃避可耻但很有用》的短评,可能队数据分析还不太了解,所以爬取什么都不太懂,也就爬取了...

  • 用Python爬取网易云音乐歌曲

    前天给大家分享了用Python网络爬虫爬取了网易云歌词,在文尾说要爬取网易云歌曲,今天小编带大家一起来利用Pyth...

网友评论

本文标题:我爬取了汪峰146首歌词,却找不到他的梦想

本文链接:https://www.haomeiwen.com/subject/thlknttx.html