美文网首页爬虫首页投稿(暂停使用,暂停投稿)@IT·互联网
打造快捷查词工具(urllib的升级 requests)

打造快捷查词工具(urllib的升级 requests)

作者: 代号027 | 来源:发表于2016-06-10 12:34 被阅读416次

    这篇文章将要呈现什么

    翻译英文单词 翻译中文句子 翻译英文句子
    • 技术呈现

    这篇文章讲告诉你,这篇文章的重点是requests库的介绍,顺便也提到了一个比较鸡肋的python模块termcolor(用于终端输出字符的颜色控制)

    • 你将收获什么

    你将掌握requests库的基本用法,告别urllib 和 urllib2的繁琐,更优雅的进行http访问

    • 这和词典有什么关系

    嗯,你可以使用有道的API以及requests库和termcolor实现一个命令行模式的翻译工具

    关于标题中提到的快捷

    快捷查词工具,额,这个主要取决于你的网络环境!其次,快捷的前提是,你是一个中度以上的终端用户!最后,你不满目前查词软件的取词和划词的用户体验!

    总之到底什么是快捷,用了以后才知道!

    为什么是requests

    通过代码比较

    讲真,我觉得就是 write less do more,直接看代码吧:

    1. 在没有使用requests之前,我们使用urllib 和 urllib2
    import urllib 
    import urllib2
    
    url = "http://www.baidu.com"
    headers = {'cookie': 'blablablab-akadbkkju'}
    params = {'key': 'value'}
    
    request = urllib2.request(url, data=params, headers=headers)
    response = urllib2.urlopen(request)
    content = response.read().encode('utf-8')
    
    
    1. 有了requests之后
    import requests
    
    url = "http://www.baidu.com"
    headers = {'cookie': 'blablablab-akadbkkju'}
    params = {'key': 'value'}
    
    # 看看这个get  有没有觉得很优雅
    r = requests.get(url,params=params, headers=headers)
    r.text
    

    requests的好处

    清晰的http请求类型

    嗯,上面的代码貌似并没有特别体现出来requests的优势,但是仅仅一个优雅requests.get就秒杀掉了urllib2的两行代码,当然类似的还有 put post head delete options这些方法,有没有感觉很漂亮!

    更加直观的响应及内容获取方式

    获取文本

    对于获取的内容,普通html文档,直接获取html代码(page_source)

    r = responses.get('http://ww.baidu.com')
    r.text
    
    响应二进制内容

    Requests会自动为你解码 gzip 和 deflate 传输编码的响应数据,是不是碉堡了:

    from PIL import Image
    from StringIO import StringIO
    i = Image.open(StringIO(r.content))
    

    响应json内容

    如果运气好的话,或者我们在访问API的时候,获得了json数据,不需要使用json或者simplejson自己解析了,比如获取一个快递100返回的json,就可以直接得到一个字典:

    r = requests.get('http://www.kuaidi100.com/query?type=快递公司代号&postid=快递单号')
    dict = r.json()
    

    响应状态码

    如果你要判断一个页面是否爬取成功,直接这样就可以了:

    r = requests.get('http://www.baidu.com')
    if r.status_code == 200:
       # do something
    else:
       # retry or other
    

    安装和使用

    安装

    直接pip install requests就好咯

    使用

    额,貌似上一部分已经忍不住讲过了,详情及高级用法可以看官方文档咯

    项目示例

    感觉我们已经手握倚天剑、屠龙刀之类的利器了,那么,一起来做点什么吧!
    嗯,通过有道API来编写一个翻译工具吧:

    • 这个工具在命令行运行,看上去就像是一个linux命令:

    嗯,编写一个脚本,软连接到 全局路径下即可如/usr/bin

    • 这个命令在运行的时候需要从命令行接收一个参数

    这个也很简单,引入sys模块,sys.argv[1]就是我们需要的参数了

    • 需要从网络上获取json数据

    上面已经说的很清楚了,用牛掰的requests模块,直接get一下记好了

    • 请求之前需要参数的封装

    创建一个字典就好咯

    • 命令行需要不同颜色显示不同的字符

    termcolor模块可以很好的解决,嗯,还很好用,pip 安装就好
    from termcolor import colored
    print colored('我想变成红色', 'red')

    • 最后,还需要了解一下有道的API

    传送门 有道API创建和调用说明灰常简单

    最后就不上代码了,直接给github地址吧!

    PS: github上的代码仅作参考,如果你要自己实现一个这样的翻译工具,请自己申请自己的有道API,别用我的啊,虽然我的也是免费的,一个小时可以查1000次,但是人多了就不好玩了!

    github上关 output方法内的代码,json解析比较混乱(暂(bu)时(zhun)没(bei)有(qu)优化了!),嗯,千万不要学坏!

    相关文章

      网友评论

      • e2e8e05822a5:长江后浪推前浪,不得不说确实比我以前的代码漂亮
        代号027:@Angelas 😂我刚刚添加了数据库功能,丑逼代码已经来了
      • 乐猿:玩起了,很不错~ 之前是Alfred + youdao搜索来查翻译,不知道有道还有API可以直接调,挺好
        乐猿:@一点简单 已经申请了
        代号027:@乐猿 嗯嗯,你可以自己申请一个key,然后替换一下,后期持续维护,抽时间把单词本功能也加上

      本文标题:打造快捷查词工具(urllib的升级 requests)

      本文链接:https://www.haomeiwen.com/subject/rjjsdttx.html