爬虫 抓取电影资源

作者: 一只失去梦想的程序猿 | 来源:发表于2018-01-02 17:56 被阅读709次

现在想看个电影越来越麻烦,在线看就要各种会员,下载看就要先忍受一波各种垃圾广告的狂轰乱炸,于是,写个爬虫抓取电影资源的下载链接。
1.这里以比特兔为例(其实各种bt网站大同小异)
(网址)[http://www.btrabbit.cc/]
2.搜索一部电影如守法公民,网址变为“http://www.btrabbit.cc/search/守法公民.html”
3.右键检查(Chrome),copy Xpath即可直接获得下载路径
4.源码:

# -*- coding: utf-8 -*-

import os
import sys
import re
import requests

from lxml import html
reload(sys)
sys.setdefaultencoding('utf8')

def analyUrl(name):
    url='http://www.btrabbit.cc/search/%s.html'%name
    response=requests.get(url).content
    selector = html.fromstring(response)
    hrefs=selector.xpath('//div[@class="search-item detail-width"]')
    sourcelist=[]
    if len(hrefs)>0:
        href=hrefs[0]
        for x in hrefs:
            name=x.xpath('div[@class="item-title"]/h3/a/@title')
            nameStr=''
            nameStr=nameStr+name[0]
            detail=href.xpath('div[@class="item-bar"]/a/text()')
            if detail:
                nameStr=nameStr+detail[0]
            sourcelist.append(nameStr)
            downUrl=x.xpath('div[@class="item-bar"]/a/@href')
            sourcelist.append(downUrl[0])
            if len(sourcelist)==2:
                break

    return sourcelist
def searchFH(name):
    seedstr = '\n'.join(analyUrl(name))
    return  seedstr
if __name__ == '__main__':
    print searchFH('守法公民')

5.完成。

相关文章

  • 爬虫 抓取电影资源

    现在想看个电影越来越麻烦,在线看就要各种会员,下载看就要先忍受一波各种垃圾广告的狂轰乱炸,于是,写个爬虫抓取电影资...

  • 【Python爬虫】- 阳光电影网国内电影资源抓取

    抓取目标 阳光电影网导航栏国内电影资源抓取:电影名称和下载资源的抓取 页面观察 点击导航栏的国内电影会跳转到国内电...

  • python猫眼电影爬虫+Django+Echarts图表

    一.爬虫作业:抓取猫眼电影网站数据 二.Django+echarts图表 三.爬虫和django代码 猫眼爬虫gi...

  • spider(爬虫)

    spider(爬虫) 推荐抓取工具:火车采集器\火车头采集器 爬虫抓取网页 jsdom.js 爬虫抓取数据

  • 2017.11.6项目环境搭建

    项目名称:用爬虫抓取豆瓣8分以上的电影名单 项目技术:python+mySql+Flask+爬虫框架Scrapy ...

  • Python爬虫并发抓取

    在进行单个爬虫抓取的时候,我们不可能按照一次抓取一个url的方式进行网页抓取,这样效率低,也浪费了cpu的资源。目...

  • 爬虫之路

    什么是爬虫? 爬虫:抓取网页数据的程序网页: URL统一资源定位符HTTP/HTTPS协议数据爬取:1.确定URL...

  • 【Python爬虫】- 阳光电影网国内电影资源抓取

    目录 一、 爬虫的逻辑二、XPath 爬取网站的数据三、函数封装四、运行结果 一、 爬虫的逻辑 作业内容是抓取阳光...

  • 网络爬虫去重策略

    在爬虫中,我们经常遇到这样的问题。一是希望抓取过的URL不再重复抓取,节省资源;二是希望下载过的数据不再重复下载(...

  • Python 爬虫协议及建议

    爬虫协议 什么是爬虫协议:爬虫协议,也被叫做robots协议,是为了告诉网络蜘蛛哪些页面可以抓取,哪些页面不能抓取...

网友评论

    本文标题:爬虫 抓取电影资源

    本文链接:https://www.haomeiwen.com/subject/qzjqnxtx.html