美文网首页Spbeen——Python技术栈程序员
中层:标签网页的获取单网页链接,难度简单--wh03

中层:标签网页的获取单网页链接,难度简单--wh03

作者: 布拉豆 | 来源:发表于2017-04-23 19:15 被阅读31次

中层:标签网页的获取单网页链接

一、实验说明

1.1. 环境登录

无需密码自动登录,系统用户名shiyanlou

1.2. 环境介绍

本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到桌面上的程序:

  1. Xfce 终端: Linux命令行终端,打开后会进入 shell 环境,可以使用Linux命令
  2. Firefox:浏览器,可以用在需要前端界面的课程里,只需要打开环境里写的HTML/JS页面即可
  3. GVim:非常好用的编辑器,最简单的用法可以参考课程Vim编辑器

1.3. 环境使用

使用GVim编辑器输入实验所需的代码及文件,使用终端运行所需命令进行操作。

实验报告可以在个人主页中查看,其中含有每次实验的截图及笔记,以及每次实验的有效学习时间(指的是在实验桌面内操作的时间,如果没有操作,系统会记录为发呆时间)。这些都是您学习的真实性证明。

实验楼虚拟机,自带了python2.X和python3.X版本,无需安装 该实验建议使用 python2.7 版本, 也就是默认版本

二、课程介绍

组图页面的下载,上一节已经完成了已经完成了,这节呢,需要做的蛮简单,但是任务有两个:

  • 获取该标签的全部链接地址
  • 获取每个链接页面的全部组图链接地址

观察下图

此处输入图片的描述此处输入图片的描述

做个简答的思路分析:

  • 首页链接就是meizi.html,不过后面2、3、4、5、6的链接,只是后缀,我们需要简单做个拼接,得到完整的链接脚本。另外,当前页面就是1,所以1的链接为thisclass,我们采用的是从标签首页进去,然后直接获取 >=2 的链接,利用标签首页地址,拼接得到标签的所有完整链接地址,这是第一步,得到所有标签完整链接路径。
  • 每个链接里面,会有各组图套图的路径,我们又需要从每个路径里面全部读取出来,再看下图
组图链接地址组图链接地址

其实就是在ul标签的多个li,拿到ul标签的代码就行

三、代码详解

先附上获取标签链接的代码,并给出详细解析

第一个代码块:

文件名:meizi_series_nextpage
import re
import urllib2
#这个呢,是获取组图套图的代码,是下一个需要显示的代码块
import meizi_series_getpage
#同样的,这里是加载链接防超时,和上一节一样
def loadurl(url):
    try:
        conn = urllib2.urlopen(url, timeout=5)
        html = conn.read()
        return html
    except urllib2.URLError:
        return ""
    except Exception:
        print("unkown exception in conn.read()")
        return ""

#上述代码中,最后还有一个except Exception,用于处理URLErro类无法捕捉的其他异常。感谢实验楼用户@caitao。

#下面的这个path指的是保存本地的文件路径,我在第一小节已经讲过了,还记得么?跟着代码再将一次吧
def nextpage(url,path):
    reNextLink = "<a.*?href='(.*?)'>.*?</a>"
    #获取reNextPage里的标签的全部链接
    reNextPage = '<div.*?id="wp_page_number.*?>.*?<ul>(.*?)</ul>'
    #获取ul标签里面的内容,里面包含了所有我们需要的链接,找到wp_page_number就可以了
    #下面目的是获取链接名,组合传入路径得到当前路径名,解释:匹配a到z字符,>=1个
    searchPathTail = '.*/([a-z]+).*?.html'
    #获取传入的链接尾巴
    searchurltail = '.*/(.*?.html)'
    #获取传入的链接头部
    searchhead = '(.*)/.*?.html'
    #分开头和尾,是因为在获取当前标签的所有页码,都不是完整的,而是尾部链接,需要用尾部和头部链接拼凑成完整的链接。头部链接,就是传入链接的头部,而且传入的是第一个完整链接,页面1里面又没有尾部链接,所有传入链接的尾部,也需要找出
    pathTail = re.findall(searchPathTail,url,re.S)
    urlTail = re.findall(searchurltail,url,re.S)
    urlhead = re.findall(searchhead,url,re.S)
    #从传入文件夹路径和从链接中分析出的文件名,得到当前文件夹路径,保存到path中
    path = path + '/' +pathTail[0]
    print path
    #标签页面的存储列表nextpage
    nextpageurl = []
    html = ''
    while True:
        html = loadurl(url)
        if html == '':
            print 'load', url,'error'
            continue
        else:
            break
    nextPage = re.findall(reNextPage,html,re.S)
    nextLink = re.findall(reNextLink,nextPage[0],re.S)
    nextLink.append(urlTail[0])
    #这一段是将标签页码的所有尾部链接保存到nextLink中,然后下面的for循环,将完整的url链接,存储到nextpageurl中
    nextLink = sorted(list(set(nextLink)))
    for i in nextLink:
        nextpageurl.append(urlhead[0]+"/"+i)
    #将url链接和对应的文件路径传入"获取标签第n页的所有组图链接"的模板中,引号标记的,就是下一个代码块
    for i in nextpageurl:
        print i
        meizi_series_getpage.tag_series(i,path)

第二个代码块

#文件名:meizi_series_getpage
import re
import urllib2
import meizi_page_download

def loadurl(url):
    #依旧的,防超时和循环加载
    try:
        conn = urllib2.urlopen(url,timeout=5)
        html = conn.read()
        return html
    except urllib2.URLError:
        return ''
    except Exception:
        print("unkown exception in conn.read()")
        return ''
        
#这个函数,简单点就是根据套图链接和传入的路径,得到套图文件夹路径,再传给上一节的图片下载模板
def oneOfSeries(urllist,path):
    searchname = '.*/(.*?).html'
    current_path = '' 
    for url in urllist:
        try:
            name = re.findall(searchname,url,re.S)
            current_path = path + '/' + name[0]
            meizi_page_download.picurl(url,current_path)
        except urllib2.URLError:
            pass

#传入标签的第n页和文件夹路径,获取所有套图url链接,和分析出对应的文件夹路径,传给我们底层的图片下载模板(也就是上一节啦)
def tag_series(url,path):
    #这里是直接匹配出套图的链接,直接,注意是直接,最好是将结果和源码对下结果,防止遗漏和多出
    reSeriesList = '<div .*?class="pic".*?>.*?<a.*?href="(.*?)".*?target.*?>'
    html = ''
    while True:
        html = loadurl(url)
        if html == '':
            print 'load', url,'error'
            continue
        else:
            break
    seriesList = re.findall(reSeriesList,html,re.S)
    if len(seriesList) ==0:
        pass
    else:
        oneOfSeries(seriesList,path)

实验楼环境运行截图,奉上:


实验楼运行截图(第三小节)实验楼运行截图(第三小节)

四、总结

一共四步:

  • 从传入的文件夹路径和标签链接,得到当前标签的文件夹路径
  • 从传入的标签链接,得到所有的标签页的url链接
  • 从传入的标签第n页的url链接,得到所有的套图url链接
  • 从套图url链接和传入的文件夹路径,得到套图的文件夹路径
  • 将套图文件夹路径和套图的url链接,传给图片下载的模板(上一节我们完成的那个代码文件)
    本节到此结束了,下一节就是"高层:从顶层域获取所有的标签页",基础爬虫的最后一个...

Follow me, let's go...

Python3教程、项目网站--传送门

相关文章

  • 中层:标签网页的获取单网页链接,难度简单--wh03

    中层:标签网页的获取单网页链接 一、实验说明 1.1. 环境登录 无需密码自动登录,系统用户名shiyanlou ...

  • 常用标签笔记

    网页组成元素 文字 图片 链接 视频 音频 标签分类: 1,双标签 <标签名>内容 比如: 2,单标签...

  • 标签(一)

    html标签 html 双标签 head 双标签,网页的一些配置meta 单标签,规范我们使用网页的字符集。中文:...

  • 网页爬虫的业务抽象

    网页爬虫需要获取网页特定的HTML标签内容和内容中的资源文件,分解下来动作有: 拿网页HTML抓标签(通过 id、...

  • 章节四、认识标签(三)

    学会使用 标签,进行超链接 标签,为网页插入图片标签 链接Email地址

  • 第一个网页制作

    初识网页编程 网页标签 头标签 网页标题小图片 一级标题 二级标题 段落 链接 插入图片 注意:src下写清图片所...

  • 初级爬虫使用指北(4)--解析网页

    目录目的网页构成获取标签里的信息解析网页的一般流程完整代码附加题 1. 目的 当获取到指定网页文件(html源代码...

  • Nofollow标签

    简单的说就是,如果A网页上有一个链接指向B网页,但A网页给这个链接加上了 rel="nofollow" 标注,则搜...

  • html-图片/表格/表单

    a标签的认识 ’#‘号跳转页面内锚点跳转外部网页跳转内部网页 a标签的伪协议 img的认识 img是一个单标签 ...

  • UIWebView与JS简单交互(删除标签和获取某个标签的内容)

    一直以来都对获取网页中的某个标签的内容感兴趣,很好奇怎么实现获取到网页中某个标签,今天自己开始研究一下,如何去获取...

网友评论

    本文标题:中层:标签网页的获取单网页链接,难度简单--wh03

    本文链接:https://www.haomeiwen.com/subject/syjouttx.html