美文网首页py爬虫python爬虫scrayp爬虫
scrapy爬取整个ttmeiju的资源

scrapy爬取整个ttmeiju的资源

作者: 寒风大侠 | 来源:发表于2016-04-06 14:04 被阅读486次

    天天美剧是我非常喜欢的一个美剧资源网站,资源更新比较迅速。

    我以前写过不用scrapy的爬虫,详见(https://github.com/daxiangpanda/ttmeiju)。写的比较痛苦,因为一开始对这个网站的资源分布认识不深刻。我一开始的想法是使用网站中内嵌的站内搜索来爬取指定的美剧的所有名称,链接,大小,格式等信息。

    这个想法在一开始还是遇到了一些问题,主要的问题就是汉字编码的问题以及确定url的问题。 

    站内的搜索引擎要求不能中英文混输,


    如上图所示,如果我输入“无耻家庭”(作者最喜爱的美剧),点击搜索按钮,浏览器会打开url为:

    http://www.ttmeiju.com/search.php?keyword=%CE%DE%B3%DC%BC%D2%CD%A5&range=0的网页。

    其中“%CE%DE%B3%DC%BC%D2%CD%A5”是‘无耻家庭’几个字的gbk编码。

    有空再写吧

    这是爬完整个网站后出来的数据,19m多的json格式数据,纯干货

    https://github.com/daxiangpanda/ttmeiju_scrapy

    相关文章

      网友评论

      • 7c31f0cdc92c:楼主只是为了纪念一下吗,啥都没有呢
      • yarving:额。以为有教程。

      本文标题:scrapy爬取整个ttmeiju的资源

      本文链接:https://www.haomeiwen.com/subject/odcmlttx.html