美文网首页玩耍PythonPythonpython
8.Python3爬虫实例——使用BeautifulSoup4重

8.Python3爬虫实例——使用BeautifulSoup4重

作者: KaelQ | 来源:发表于2016-08-01 17:44 被阅读4114次

    1.BeautifulSoup4概论

    • 是不是觉得正则很麻烦呢?那么BeautifulSoup4(以下简称BS4)可以轻松解决这个问题。因为BS4不用写正则!!

    原理:将整个页面转为一个对象,然后将每个节点按照父子、兄弟的关系进行分类,最后形成一个树状结构。例如

    <html>
    <head></head>
    <body>
    <a>first</a>
    <a>second</a>
    </body>
    </html>
    

    经过解析后为



    这样子直接按需求取响应的对象就可以了。不需要正则进行匹配了。

    2.流程

    • 因为是对项目的重构。项目正则法传送门
      流程依旧是WWHS:
      1.从哪爬 where
      2.爬什么 what
      3.怎么爬 how
      4.爬了之后信息如何保存 save

    3.具体代码

    • 使用pip安装BS4.
    • py文件头部导入
    import urllib.request
    import chardet
    from bs4 import BeautifulSoup
    
    • 读取网页代码
    url="http://www.shicimingju.com/book/sanguoyanyi.html" # 要爬取的网络地址
    menuCode=urllib.request.urlopen(url).read()  # 将网页源代码赋予menuCode
    
    • 使用BS4处理后得到整个页面的soup和要找的部分soup2。
    soup=BeautifulSoup(menuCode,'html.parser')  # 使用html解析器进行解析
    menu=soup.find_all(id="mulu")  # 在soup中找到id为mulu的节点
    values = ','.join(str(v) for v in menu) # 将 menu转换为str类型
    soup2=BeautifulSoup(values,'html.parser');
    soup2=soup2.ul  # 用子节点代替soup2
    
    • 找到书名并创建txt文件。
    bookName=soup.h1.string # 找到了书名
    f=open('D://'+bookName+'.txt','a',encoding='utf8')
    
    • 爬取章节url,并解决url为本地的问题。
    bookMenu=[] # 章节list
    bookMenuUrl=[] # 章节url的list
    for i in range(1,len(soup2.contents)-1): # 依次爬取书的章节
        bookMenu.append(soup2.contents[i].string)
        bookMenuUrl.append(soup2.contents[i].a['href'])
    urlBegin="http://www.shicimingju.com" # 解决url为本地的问题
    
    • 依次爬取每章内容并写入txt。
    for i  in  range (0,len(bookMenuUrl)):# 依次替换url,读取每章页面的内容
        chapterCode=urllib.request.urlopen(urlBegin+bookMenuUrl[i]).read()
        result=chardet.detect(chapterCode) # 检验读取的页面的编码方式
        if(result['confidence']>0.5): # 如果概率大于0.5 即采取这种编码
            chapterCode=chapterCode.decode(result['encoding'])
        chapterSoup=BeautifulSoup(chapterCode,'html.parser') # 使用BS读取解析网页代码
        chapterResult=chapterSoup.find_all(id='con2')  # 找到id=‘con2’的节点
        chapterResult = ','.join(str(v) for v in chapterResult) # 将节点内的代码转为str类型
        chapterSoup2=BeautifulSoup(chapterResult,'html.parser') # 使用BS解析节点内代码
        chapterSoup2=chapterSoup2.br
        f.write(bookMenu[i]) # 写入文件每章标题
        for j in range(0,len(chapterSoup2)): # 循环写入每章内容
            chapterText=chapterSoup2.contents[j].string
            f.write(chapterText)
    

    4.总结

    BeautifulSoup4将解析工作交给了框架本身,我们只用根据节点进行查询就可以了。

    相关文章

      网友评论

      本文标题:8.Python3爬虫实例——使用BeautifulSoup4重

      本文链接:https://www.haomeiwen.com/subject/wmmxsttx.html