美文网首页python爬虫程序员
python爬虫抓取app列表的图标

python爬虫抓取app列表的图标

作者: lqeh | 来源:发表于2017-09-03 16:37 被阅读0次

    python爬虫抓取app列表的图标


    爬虫简介

    所谓的爬虫简单来说,就是通过不断的变化http请求的url,向服务器进行请求,从而获得服务器返回的相关数据,在这些数据中提取对自己有用的信息。

    爬虫的步骤

    • 构造url。根据自己想要抓取的信息,构造出相应的url。
    • 请求url。根据上面构造的url,向服务器发起请求。(在python中可以用urllib、request库等)
    • 提取数据。向服务器发起请求后,服务器会返回相关的数据(如:html、json、xml),在这些数据中提取对自己有用的信息(可以用正则表达式、BeautifulSoup、json、lxml等)。
    • 保存数据。已特定的格式(csv文件)保存上面提取的数据,以便于后面进行数据分析。

    例子

    使用爬虫抓取app列表的图标,如微信、QQ、今日头条等。

    • 构造url
      打开豌豆荚首页,在搜索框中输入微信,进行搜索。豌豆荚服务器返回下图的页面,有搜索到app列表的信息和图标。
    weixin.png

    在进行搜索时,用Wireshark进行抓包,可以看到在搜索微信时,对应的http请求为:http://www.wandoujia.com/search?key=%E5%BE%AE%E4%BF%A1&source=index
    QQ的请求为:
    http://www.wandoujia.com/search?key=QQ&source=index
    今日头条的请求为:
    http://www.wandoujia.com/search?key=%E4%BB%8A%E6%97%A5%E5%A4%B4%E6%9D%A1&source=index

    • 从上面的3个不同的app的http请求,我们可以发现,只是搜索的key值有所不同,比如微信的key为%E5%BE%AE%E4%BF%A1,QQ的key为QQ,今日头条的key为%E5%BE%AE%E4%BF%A1。这些值对应字符的utf-8编码 + url编码。也是说微信的utf-8为E5 BE AE E4 BF A1,格式化为url编码就是:%E5%BE%AE%E4%BF%A1。
    • 所以对于不同的app应用要构造出不同请求的url,我们只需要改变上面http请求的key值,再向豌豆荚的服务器发送请求即可。

    请求url

    在python中可以使用urllib、request库等。

    提取数据

    发送http请求后,豌豆荚服务器会返回搜索的app列表。可以看到是一个html文档。用Chrome浏览器,查看返回的html文档,定位到相关的信息。如下图,可以看到,微信的图标的链接地址。这就是我们需要提取的数据。

    img_link.png

    在python中我们可以使用正则表达式来提取图标的链接地址,或者对于html可以使用BeautifulSoup来提取。

    保存数据

    上面提取的是图标的链接地址,我们可以再次用这个链接地址发起http请求,就可以得到相应图标的数据,然后把数据保存到磁盘中即可。


    代码如下:

    #!/usr/bin/env python3
    # -*- coding: utf-8 -*-
    
    """从豌豆荚应用市场抓取app列表的图标"""
    
    from urllib.parse import quote
    from urllib import request
    from functools import wraps
    import re
    
    
    __author__ = 'heql'
    
    
    def url_decorate(func):
    
        @wraps(func)
        def wrapper(*args, **kwargs):
            print(*args)
            if args:
                return func(*args)
        return wrapper
    
    
    @url_decorate
    def request_url(url):
        """请求url"""
        cnt = 3
        for i in range(cnt):
            try:
                with request.urlopen(url, timeout=20) as f:
                    return f.read()
            except Exception as e:
                if(i < cnt - 1):
                    print('request again')
                else:
                    print('except:', e)
    
    
    def save_icon(file_name, data):
        with open(file_name, 'wb') as f:
            f.write(data)                
    
    
    def get_icon_links(data, app_name, compare=None):
        """提取图标的链接"""
        items = re.findall(r'(<div class="icon-wrap">(?:.|\n)*?</h2>)', data)
    
        for item in items:
            icon_link = re.search(r'<img src="(.*?)"', item).group(1)
            icon_app_name = re.search(r'class="name">(.*?)</a>', item).group(1)
    
            result = True if compare is None else compare(icon_app_name, app_name)
            if result:
                yield icon_app_name, icon_link
       
    
    def read_app_list(file_name):
        """读取app列表"""
        with open(file_name, encoding='utf-8') as f:
            return [line.strip() for line in f if line.strip()]
    
    
    def main():
        app_name_list = read_app_list('app_list.txt')
        url  = 'http://www.wandoujia.com/search?key={0}&source=index'
    
        for app_name in app_name_list:
            data = request_url(url.format(quote(app_name, encoding='utf-8')))
            if not data:
                continue
    
            for index, (icon_app_name, icon_link) in enumerate(get_icon_links(data.decode('utf-8'), app_name, lambda left, right: left == right)):
                icon_data = request_url(icon_link)
                if not icon_data:
                    continue
    
                file_name = '{0}_{1}.png'.format(icon_app_name, index)
                save_icon(file_name, icon_data)             
        
    
    if __name__ == '__main__':
        main()
    

    代码分析:

    read_app_list函数: 从文件中读出app列表的名称,每一行对应一个app名称。

    request_url函数: 使用urllib发送http请求。如果请求时发生异常(如:网络超时、url请求错误等),则再次发送请求,如果同一个url超过三次请求有误,则返回None。它有一个装饰器url_decorate,用于输出发送请求时的url。

    get_icon_links函数: 用于提取服务器返回的数据。使用正则表达式findall匹配所有符合以<div class="icon-wrap">开始,以/h2>结束的选项。findall会返回一个list。然后对每个选项用整个表达式提取图标的链接和图标的名称。compare 是一个回调函数,当为None时表示要提取所有的图标信息,代码传入一个lambda表达式,lambda left, right: left==right表示只有提取的图标名称和搜索的图标的名称相同时,才返回其对应的图标链接。

    save_icon函数: 写入图标的数据到指定的文件中。图标保存的名称是以名字_下标形式保存的,因为有可能会出现两个以上名字相同的数据,比如说:搜索可可英语。会有两个相同的app名称的应用。


    使用BeautifulSoup提取html数据

    Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。

    参考: https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

    使用BeautifulSoup后能让代码更加简洁,对于上面的程序,我们只需修改get_icon_links即可。代码如下:

    # 提取图标的链接
    def get_icon_links(data, app_name, compare=None):
        soup = BeautifulSoup(data, 'lxml')
        for tag in soup.find_all('img'):
            icon_link = tag['src']
            icon_app_name = tag['alt']
    
            result = True if compare is None else compare(icon_app_name, app_name)
            if result:
                yield icon_app_name, icon_link

    相关文章

      网友评论

        本文标题:python爬虫抓取app列表的图标

        本文链接:https://www.haomeiwen.com/subject/diwdjxtx.html