美文网首页
记一次Python爬虫分享

记一次Python爬虫分享

作者: lgsen | 来源:发表于2017-08-21 14:06 被阅读0次

    一、爬虫的目标

    网址:http://www.gdgpo.gov.cn/queryMoreInfoList/channelCode/0008.html

    这是广东省政府采购网公布的中标公告,网站如下:

    网页截图

    我们要进入具体的公告中,爬一下内容:

    我们要爬红色框里的内容

    将红色框里的数据整理表格形式。

    二、分析网站

    具体爬虫之前分析一下网站,决定如何进行爬虫。

    翻页

    留意一下,我们进入该网站后,点击跳转到第2页或别的页,可以发现浏览器的网址框中的网址是一样的。我们用控制台看一下,可以发现,页数的跳转是用JavaScript处理的,如下图:

    控制台查看

    所以,我们不能直接借助网址跳到不同的页数去,我想到的办法是借助Python的selenium包。它可以借助浏览器,模拟鼠标操作,待JavaScript处理完后再获取网页源码。

    标题链接

    通过看网页源码,其实发现源码是很清晰的,可以直接爬到链接。

    网页源码

    这个网址看得出来是个相对路径,我们进去之后可以在浏览器看到完整路径。

    完整的网址

    具体内容

    通过看网页源码,要爬的内容在源码中也都有了。

    网页源码

    小结

    小结一下,这次的爬虫难点主要在于翻页,中间过程要爬的标题链接和最终要爬的具体内容,都可以用一般的爬虫方法得到。

    所以,爬虫的思路是:

    1. 借助selenium实现翻页;
    2. 翻页过程中把标题链接爬下来;
    3. 循环进入各个公告,把要爬的具体数据爬下来。

    三、编程

    先把要引用的包引用进来:

    import urllib.request
    import re
    from selenium import webdriver
    import csv
    

    实现翻页

    首先,使用selenium打开网站。

    url = 'http://www.gdgpo.gov.cn/queryMoreInfoList/channelCode/0008.html'
    
    browser = webdriver.Firefox()   # 使用Firefox浏览器
    browser.set_page_load_timeout(5)
    browser.get(url)    # 打开指定网站
    browser.maximize_window()   # 最大化浏览器窗口
    

    注意:使用selenium打开浏览器时,需要在电脑上装一个浏览器的驱动。网页会跳转提示,根据提示下载安装即可!

    然后,锁定源码中<下一页>按钮的位置。<下一页>按钮的标签比较难以确定位置,在这里我使用find_element_by_xpath()函数,来确定位置。至于该按钮的xpath,我们可以借助chrome直接复制出来。

    借助chrome浏览器控制台复制xpath

    完善修改代码:

    url = 'http://www.gdgpo.gov.cn/queryMoreInfoList/channelCode/0008.html'
    
    browser = webdriver.Firefox()   # 使用Firefox浏览器
    browser.set_page_load_timeout(5)
    browser.get(url)    # 打开指定网站
    browser.maximize_window()   # 最大化浏览器窗口
    
    # 经对比发现,第一页和其他页中的<下一页>按钮的xpath不一致
    # 首先点击第一页中的<下一页>按钮
    browser.find_element_by_xpath("//*[@id='contianer']/div[3]/div[2]/div[3]/div/form/a[8]/span").click()
    
    # 这里点击其余页中的<下一页>按钮
    for i in range(1):  # 写一个循环,翻多少页就循环多少次
        browser.find_element_by_xpath("//*[@id='contianer']/div[3]/div[2]/div[3]/div/form/a[10]/span").click()
    

    注意:第一页和其余页的<下一页>按钮的xpath不一样,需要留意一下!

    爬取标题链接

    首先,写一个爬取标题链接的函数:

    # 获取标题链接
    def getConn(html):
        # 利用正则表达式匹配网页内容找到标题地址
        reg = r'(/showNotice/id/[^s]*?html)'
        imgre = re.compile(reg)
        imglist = re.findall(imgre, str(html))  # 找出匹配的内容,即链接
        return imglist
    

    这只是一个函数,我们结合之前写好的翻页的代码,爬一下前两页的标题链接,看看效果:

    # 获取标题链接
    def getConn(html):
        # 利用正则表达式匹配网页内容找到标题地址
        reg = r'(/showNotice/id/[^s]*?html)'
        imgre = re.compile(reg)
        imglist = re.findall(imgre, str(html))  # 找出匹配的内容,即链接
        return imglist
    
    url = 'http://www.gdgpo.gov.cn/queryMoreInfoList/channelCode/0008.html'
    
    browser = webdriver.Firefox()   # 使用Firefox浏览器
    browser.set_page_load_timeout(5)
    browser.get(url)    # 打开指定网站
    browser.maximize_window()   # 最大化浏览器窗口
    
    list = []
    link = getConn(browser.page_source) # 爬取标题链接,browser.page_source是网页源代码
    list.append(link)
    
    # 经对比发现,第一页和其他页中的<下一页>按钮的xpath不一致
    # 首先点击第一页中的<下一页>按钮
    browser.find_element_by_xpath("//*[@id='contianer']/div[3]/div[2]/div[3]/div/form/a[8]/span").click()
    link = getConn(browser.page_source)
    list.append(link)
    
    for item in list:
        for link in item:
            print(link)
    

    运行结果为:

    爬取标题链接

    爬取具体的目标数据

    前文已经说了,每一篇公告的网址都是由http://www.gdgpo.gov.cn加上爬到的标题链接组合起来。简单来说,我们可以通过直接输入网址访问每一篇公告。

    对于这种情况,我选择使用urllib就足够了。毕竟selenium还需要打开浏览器,相对来说比较麻烦的,而且进入的网页如果有数百上千个,总不好在浏览器打开数百上千个标签页吧!这样做,费时不讨好。

    所以,爬取具体的目标数据,我们使用urllib就足够了。

    首先,写一个获取网页源码的函数:

    # 获取网页源代码
    def getHtml(url):
        page = urllib.request.urlopen(url)
        html = page.read()
        html = html.decode('utf8')  # 网页源码有中文,转码匹配
        return html
    

    接下来,我们把翻页和爬取标题链接封装成一个函数,将标题链接存进一个数组返回:

    # 获取标题链接
    def getConn(html):
        # 利用正则表达式匹配网页内容找到标题地址
        reg = r'(/showNotice/id/[^s]*?html)'
        imgre = re.compile(reg)
        imglist = re.findall(imgre, str(html))  # 找出匹配的内容,即链接
        return imglist
    
    # 使用浏览器翻页抓取标题链接
    def getList(url):
        list = []
        browser = webdriver.Firefox()   # 使用Firefox浏览器
        browser.set_page_load_timeout(5)
        browser.get(url)    # 打开指定网站
        browser.maximize_window()   # 最大化浏览器窗口
    
        link = getConn(browser.page_source) # 爬取标题链接,browser.page_source是网页源代码
        list.append(link)
    
        # 经对比发现,第一页和其他页中的<下一页>按钮的xpath不一致
        # 首先点击第一页中的<下一页>按钮
        browser.find_element_by_xpath("//*[@id='contianer']/div[3]/div[2]/div[3]/div/form/a[8]/span").click()
        link = getConn(browser.page_source)
        list.append(link)
    
        # 这里点击其余页中的<下一页>按钮
        for i in range(1):  # 写一个循环,翻多少页就循环多少次
            browser.find_element_by_xpath("//*[@id='contianer']/div[3]/div[2]/div[3]/div/form/a[10]/span").click()
            link = getConn(browser.page_source)
            list.append(link)
        return list
    

    通过上述函数,获取标题链接,写一个函数,爬取具体数据,存进csv文件:

    # 根据标题链接,进入页面爬取所需数据
    def getData(url):
        list = getList(url) # 获取标题链接
        str1 = 'http://www.gdgpo.gov.cn'
        for item in list:
            for link in item:
                data = []
                url_link = str1+link    # 拼接网址
                html_link = getHtml(url_link)
                
                # 正则表达式匹配采购项目名称
                xre = re.compile(r'(<span style="font-family)*.[\u4e8c][^s]*?[\uff1a]([^<]+)')
                try:
                    data1 = re.search(xre, str(html_link)).group(2) #获取匹配数据
                    data.append(data1)
                except:
                    pass
                
                # 下列正则表达式是连在一起的,由于过长分成三行
                yre = re.compile(r'(<span style="font-family)*.1[\uff1a]([^<]+)[^;]+[^&]+[^;]+;([^&]+)' # 匹配中标供应商名称
                                 r'[^>]+[^<]+[^>]+[^;]+[^&]+[^;]+;([^&]+)'  # 匹配法人代表
                                 r'[^>]+[^<]+[^>]+[^;]+[^&]+[^;]+;([^&]+)') # 匹配地址
                try:
                    data2 = re.search(yre, str(html_link)).group(3)
                    data3 = re.search(yre, str(html_link)).group(4)
                    data4 = re.search(yre, str(html_link)).group(5)
                    data.append(data2)
                    data.append(data3)
                    data.append(data4)
                except:
                    pass
                
                # 数据已经存进data,用a+模式打开csv文件,可以添加data数据进去,不覆盖原数据
                with open("yang.csv", "a+", newline="") as datacsv:
                    # dialect为打开csv文件的方式,默认是excel,delimiter="\t"参数指写入的时候的分隔符
                    csvwriter = csv.writer(datacsv, dialect=("excel"))
                    # csv文件插入一行数据,把下面列表中的每一项放入一个单元格(可以用循环插入多行)
                    csvwriter.writerow(data)
    

    注意:写正则表达式的时候,有些地方是需要匹配中文的,在获取网页源码函数里面,我已经转码为utf8,所以写正则表达式的时候要把中文转成Unicode编码。

    另外,这里要多说一句,我的正则表达式真的是渣渣水平,所以写得很长很不好看很不舒服。各位看官要是看不下去了,自己修改一下。[捂脸]

    至此,这个函数写完了,调用这个函数就可以把数据爬下来了,可以得到一个csv文件,我们可以用Excel打开,就是表格的形式。

    完整版代码

    #!/usr/bin/env python
    # -*- coding:utf-8 -*-
    """
    @File:yang.py
    @Time:2017/8/17 23:20
    @Author:lgsen
    """
    
    import urllib.request
    import re
    from selenium import webdriver
    import csv
    
    # 获取网页源代码
    def getHtml(url):
        page = urllib.request.urlopen(url)
        html = page.read()
        html = html.decode('utf8')  # 网页源码有中文,转码匹配
        return html
    
    # 获取标题链接
    def getConn(html):
        # 利用正则表达式匹配网页内容找到标题地址
        reg = r'(/showNotice/id/[^s]*?html)'
        imgre = re.compile(reg)
        imglist = re.findall(imgre, str(html))  # 找出匹配的内容,即链接
        return imglist
    
    # 使用浏览器翻页抓取标题链接
    def getList(url):
        list = []
        browser = webdriver.Firefox()   # 使用Firefox浏览器
        browser.set_page_load_timeout(5)
        browser.get(url)    # 打开指定网站
        browser.maximize_window()   # 最大化浏览器窗口
    
        link = getConn(browser.page_source) # 爬取标题链接,browser.page_source是网页源代码
        list.append(link)
    
        # 经对比发现,第一页和其他页中的<下一页>按钮的xpath不一致
        # 首先点击第一页中的<下一页>按钮
        browser.find_element_by_xpath("//*[@id='contianer']/div[3]/div[2]/div[3]/div/form/a[8]/span").click()
        link = getConn(browser.page_source)
        list.append(link)
    
        # 这里点击其余页中的<下一页>按钮
        for i in range(1):  # 写一个循环,翻多少页就循环多少次
            browser.find_element_by_xpath("//*[@id='contianer']/div[3]/div[2]/div[3]/div/form/a[10]/span").click()
            link = getConn(browser.page_source)
            list.append(link)
        return list
    
    # 根据标题链接,进入页面爬取所需数据
    def getData(url):
        list = getList(url) # 获取标题链接
        str1 = 'http://www.gdgpo.gov.cn'
        for item in list:
            for link in item:
                data = []
                url_link = str1+link    # 拼接网址
                html_link = getHtml(url_link)
    
                # 正则表达式匹配采购项目名称
                xre = re.compile(r'(<span style="font-family)*.[\u4e8c][^s]*?[\uff1a]([^<]+)')
                try:
                    data1 = re.search(xre, str(html_link)).group(2) #获取匹配数据
                    data.append(data1)
                except:
                    pass
    
                # 下列正则表达式是连在一起的,由于过长分成三行
                yre = re.compile(r'(<span style="font-family)*.1[\uff1a]([^<]+)[^;]+[^&]+[^;]+;([^&]+)' # 匹配中标供应商名称
                                 r'[^>]+[^<]+[^>]+[^;]+[^&]+[^;]+;([^&]+)'  # 匹配法人代表
                                 r'[^>]+[^<]+[^>]+[^;]+[^&]+[^;]+;([^&]+)') # 匹配地址
                try:
                    data2 = re.search(yre, str(html_link)).group(3)
                    data3 = re.search(yre, str(html_link)).group(4)
                    data4 = re.search(yre, str(html_link)).group(5)
                    data.append(data2)
                    data.append(data3)
                    data.append(data4)
                except:
                    pass
    
                # 数据已经存进data,用a+模式打开csv文件,可以添加data数据进去,不覆盖原数据
                with open("yang.csv", "a+", newline="") as datacsv:
                    # dialect为打开csv文件的方式,默认是excel,delimiter="\t"参数指写入的时候的分隔符
                    csvwriter = csv.writer(datacsv, dialect=("excel"))
                    # csv文件插入一行数据,把下面列表中的每一项放入一个单元格(可以用循环插入多行)
                    csvwriter.writerow(data)
    
    # 主程序
    if __name__=="__main__":
        url = 'http://www.gdgpo.gov.cn/queryMoreInfoList/channelCode/0008.html'
        getData(url)
    

    四、总结

    我不是专门写爬虫的,编程水平也不高,看我的代码就知道了[捂脸]。就是这次爬虫用到了selenium这个包,感觉有点意思,就分享一下过程。

    很多东西都是在网络上现查现用,并没有认真去理解。甚至有的代码是复制过来的,变量名都没改,如imglist,大家看看笑笑就好了。就爬虫而言,这次的难度并不高,感觉就新手练手的程度。毕竟,我就是个新手嘛!

    最后,想提一下,其实有些公告里,中标供应商是有好几个,并不只有一个,我写的代码只是爬取了第一个,大家有兴趣可以自己去解决这个问题。重在学习嘛!

    相关文章

      网友评论

          本文标题:记一次Python爬虫分享

          本文链接:https://www.haomeiwen.com/subject/jlqfdxtx.html