美文网首页Linux程序员软件测试
使用shell命令获取简书主页文章

使用shell命令获取简书主页文章

作者: 迈阿密小白 | 来源:发表于2018-05-15 15:28 被阅读234次

    概述

    之前接口测试的时候,经常遇到从response中截取数据的情况,处理起来可能也相对简单一点。今天换个玩法,用shell命令获取简书个人主页文章。
    命令如下:

    $ curl https://www.jianshu.com/u/840c2172e2e3 
    |grep 'title' | awk -F '>' '{print $2}' 
    | grep -v -e '</div' -e '</title' |awk -F '<' '{print $1}'  
    
    接口测试框架优化(三)---支持简单串接口
    使用charles筛选、修改请求与响应
    linux下MySQL常用操作(学习笔记)
    随便写写最近的面试
    一些linux命令学习(二)--grep命令
    一些linux命令学习(一)
    windows下appium1.6排坑及安装
    基于python+appium+yaml安卓UI自动化测试分享
    接口测试框架优化(二)---主要代码
    
    
    result.png

    详述

    实现这个目标,需要懂一些基础的命令

    • curl
    • grep
    • awk

    curl命令学习

    curl命令是一个利用URL规则在命令行下工作的文件传输工具。它支持文件的上传和下载,所以是综合传输工具,但按传统,习惯称curl为下载工具。

    目前我只get到了使用curl命令发送请求,暂时没有用来上传下载文件,所以不多做介绍。
    输入 curl -h,可以看到使用帮助

    $ curl -h
    Usage: curl [options...] <url>
         --abstract-unix-socket <path> Connect via abstract Unix domain socket
         --anyauth       Pick any authentication method
     -a, --append        Append to target file when uploading
         --basic         Use HTTP Basic Authentication
         --cacert <file> CA certificate to verify peer against
         --capath <dir>  CA directory to verify peer against
     -E, --cert <certificate[:password]> Client certificate file and password
         --cert-status   Verify the status of the server certificate
         --cert-type <type> Certificate file type (DER/PEM/ENG)
         --ciphers <list of ciphers> SSL ciphers to use
         --compressed    Request compressed response
         --compressed-ssh Enable SSH compression
    .
    .
    .
    

    就我自己实际操作的几个介绍一下:

    1.获取页面内容
    curl https://www.jianshu.com/
    

    不加任何选项使用 curl 时,默认会发送 GET 请求来获取链接内容

    2.发送POST请求
    curl -H "Content-Type: application/json" 
    -X POST 
    -d '{"uid": "10588666", "device_code": "", "count": 8, "op": 1, "page": 1, "content_type": [1,2,3,4], "skip_freq": 0, "exclude_docs": [], "is_wifi": 0, "is_videopage": 0, "region": 111, "register_timestamp":1519642955, "tk": "ACAWILmsfP5FV7JqM6knRK66w8j9Rqr0Aqk0NzUxNDk1MDg5NTIyNQ", "client_version":20826, "group":"exp_test_member00"}' 
    http://localhost:2051/recommend
    

    这边用到了3个参数

    • H 定义请求头 header
    • X 指定请求方式
    • d 指定发送的数据
    3.显示响应头
     curl -I https://www.jianshu.com/u/840c2172e2e3
    

    加了-I 参数,仅显示response header,结果如下

    $ curl -I https://www.jianshu.com/u/840c2172e2e3
      % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                     Dload  Upload   Total   Spent    Left  Speed
      0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0HTTP/1.1 200 OK
    Date: Mon, 14 May 2018 13:05:15 GMT
    Server: Tengine
    Content-Type: text/html; charset=utf-8
    X-Frame-Options: DENY
    X-XSS-Protection: 1; mode=block
    X-Content-Type-Options: nosniff
    ETag: W/"600753ffd703a50bfb60aca2580cddb0"
    Cache-Control: max-age=0, private, must-revalidate
    Set-Cookie: locale=zh-CN; path=/
    Set-Cookie: _m7e_session=406d79c64df9441d376f82b2; path=/; expires=Mon, 14 May 2018 19:05:15 -0000; secure; HttpOnly
    X-Request-Id: 9813d0cf-a68e-492f-8d04-580b8e149af6
    X-Runtime: 0.129613
    Strict-Transport-Security: max-age=31536000; includeSubDomains; preload
    X-Via: 1.1 PSfjqzdx7yx12:4 (Cdn Cache Server V2.0), 1.1 xinxiazai13:1 (Cdn Cache Server V2.0)
    Connection: keep-alive
    X-Dscp-Value: 0
    
    4.保存响应的内容
    curl -o D:\jianshu.html https://www.jianshu.com/u/840c2172e2e3
    

    执行此命令,会在D盘根目录生成一个jianshu.html文件,如图:


    jianshu.png
    detail.png

    curl命令还有其他用法,我这边由于暂时没有用到,所以没有进一步操作,感兴趣可以参考这篇文章学习一下

    grep命令学习

    关于grep命令,我上次学习了一次,这边就不多说了,可以参照我之前的学习笔记
    shell命令获取文章标题中用到grep的可能就是 -v -e 两个命令,相对还是比较简单的。

    awk命令学习

    awk我也是get到一点皮毛,没有很深入研究。大致工作流如下:
    -F 分隔符划分域,,$0则表示所有域,$1表示第一个域,$n表示第n个域。默认域分隔符是"空白键" 或 "[tab]键".

    举个例子:

    D盘下新建一个文件,awk.txt。
    执行命令:

    $ nl awk.txt
         1  root  1  name:001
         2  cha   2  naaa:002
         3  dong  3  nacc:003
         4  fead  4  naic:004
    
    

    如果只要显示行号

    $ nl awk.txt |awk '{print $1}'
    1
    2
    3
    4
    

    如果要显示:后面的内容

    $ nl awk.txt |awk -F':' '{print $2}'
    001
    002
    003
    004
    

    结束

    使用shell获取简书主页文章,写法肯定不止这一种方法

    $ curl https://www.jianshu.com/u/840c2172e2e3 |grep 'title' | awk -F '>' '{print $2}' | grep -v -e '</div' -e '</title' |awk -F '<' '{print $1}'
    

    但是大致上思路是固定的:

    • 将结果用grep 筛选出需要的,排除不需要的
    • 再用awk分割选择自己需要的域即可。

    期待后面,开发出更多关于shell的玩法。。。

    相关文章

      网友评论

      本文标题:使用shell命令获取简书主页文章

      本文链接:https://www.haomeiwen.com/subject/loxsdftx.html