使用shell命令获取简书主页文章

作者: 迈阿密小白 | 来源:发表于2018-05-15 15:28 被阅读234次

使用shell命令获取简书主页文章
Linux的at命令
常用的shell脚本记录
四.shell脚本语言
Dumpsys 命令使用
adb shell 命令相关功能
【python基础】５-执行外部命令
【Markdown】Shell命令高亮显示
抓取动态加载的简书个人主页
Linux 教程

概述

之前接口测试的时候，经常遇到从response中截取数据的情况，处理起来可能也相对简单一点。今天换个玩法，用shell命令获取简书个人主页文章。
命令如下：

$ curl https://www.jianshu.com/u/840c2172e2e3 
|grep 'title' | awk -F '>' '{print $2}' 
| grep -v -e '</div' -e '</title' |awk -F '<' '{print $1}'  

接口测试框架优化（三）---支持简单串接口
使用charles筛选、修改请求与响应
linux下MySQL常用操作（学习笔记）
随便写写最近的面试
一些linux命令学习(二)--grep命令
一些linux命令学习(一)
windows下appium1.6排坑及安装
基于python+appium+yaml安卓UI自动化测试分享
接口测试框架优化（二）---主要代码

result.png

详述

实现这个目标，需要懂一些基础的命令

curl
grep
awk

curl命令学习

curl命令是一个利用URL规则在命令行下工作的文件传输工具。它支持文件的上传和下载，所以是综合传输工具，但按传统，习惯称curl为下载工具。

目前我只get到了使用curl命令发送请求，暂时没有用来上传下载文件，所以不多做介绍。
输入 curl -h,可以看到使用帮助

$ curl -h
Usage: curl [options...] <url>
     --abstract-unix-socket <path> Connect via abstract Unix domain socket
     --anyauth       Pick any authentication method
 -a, --append        Append to target file when uploading
     --basic         Use HTTP Basic Authentication
     --cacert <file> CA certificate to verify peer against
     --capath <dir>  CA directory to verify peer against
 -E, --cert <certificate[:password]> Client certificate file and password
     --cert-status   Verify the status of the server certificate
     --cert-type <type> Certificate file type (DER/PEM/ENG)
     --ciphers <list of ciphers> SSL ciphers to use
     --compressed    Request compressed response
     --compressed-ssh Enable SSH compression
.
.
.

就我自己实际操作的几个介绍一下：

1.获取页面内容

curl https://www.jianshu.com/

不加任何选项使用 curl 时，默认会发送 GET 请求来获取链接内容

2.发送POST请求

curl -H "Content-Type: application/json" 
-X POST 
-d '{"uid": "10588666", "device_code": "", "count": 8, "op": 1, "page": 1, "content_type": [1,2,3,4], "skip_freq": 0, "exclude_docs": [], "is_wifi": 0, "is_videopage": 0, "region": 111, "register_timestamp":1519642955, "tk": "ACAWILmsfP5FV7JqM6knRK66w8j9Rqr0Aqk0NzUxNDk1MDg5NTIyNQ", "client_version":20826, "group":"exp_test_member00"}' 
http://localhost:2051/recommend

这边用到了3个参数

H 定义请求头 header
X 指定请求方式
d 指定发送的数据

3.显示响应头

 curl -I https://www.jianshu.com/u/840c2172e2e3

加了-I 参数，仅显示response header,结果如下

$ curl -I https://www.jianshu.com/u/840c2172e2e3
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0HTTP/1.1 200 OK
Date: Mon, 14 May 2018 13:05:15 GMT
Server: Tengine
Content-Type: text/html; charset=utf-8
X-Frame-Options: DENY
X-XSS-Protection: 1; mode=block
X-Content-Type-Options: nosniff
ETag: W/"600753ffd703a50bfb60aca2580cddb0"
Cache-Control: max-age=0, private, must-revalidate
Set-Cookie: locale=zh-CN; path=/
Set-Cookie: _m7e_session=406d79c64df9441d376f82b2; path=/; expires=Mon, 14 May 2018 19:05:15 -0000; secure; HttpOnly
X-Request-Id: 9813d0cf-a68e-492f-8d04-580b8e149af6
X-Runtime: 0.129613
Strict-Transport-Security: max-age=31536000; includeSubDomains; preload
X-Via: 1.1 PSfjqzdx7yx12:4 (Cdn Cache Server V2.0), 1.1 xinxiazai13:1 (Cdn Cache Server V2.0)
Connection: keep-alive
X-Dscp-Value: 0

4.保存响应的内容

curl -o D:\jianshu.html https://www.jianshu.com/u/840c2172e2e3

执行此命令，会在D盘根目录生成一个jianshu.html文件，如图：

jianshu.png

detail.png

curl命令还有其他用法，我这边由于暂时没有用到，所以没有进一步操作，感兴趣可以参考这篇文章学习一下

grep命令学习

关于grep命令，我上次学习了一次，这边就不多说了，可以参照我之前的学习笔记。
shell命令获取文章标题中用到grep的可能就是 -v -e 两个命令，相对还是比较简单的。

awk命令学习

awk我也是get到一点皮毛，没有很深入研究。大致工作流如下：
-F 分隔符划分域，，$0则表示所有域,$1表示第一个域,$n表示第n个域。默认域分隔符是"空白键" 或 "[tab]键".

举个例子：

D盘下新建一个文件，awk.txt。
执行命令：

$ nl awk.txt
     1  root  1  name:001
     2  cha   2  naaa:002
     3  dong  3  nacc:003
     4  fead  4  naic:004

如果只要显示行号

$ nl awk.txt |awk '{print $1}'
1
2
3
4

如果要显示：后面的内容

$ nl awk.txt |awk -F':' '{print $2}'
001
002
003
004

结束

使用shell获取简书主页文章，写法肯定不止这一种方法

$ curl https://www.jianshu.com/u/840c2172e2e3 |grep 'title' | awk -F '>' '{print $2}' | grep -v -e '</div' -e '</title' |awk -F '<' '{print $1}'

但是大致上思路是固定的:

将结果用grep 筛选出需要的，排除不需要的
再用awk分割选择自己需要的域即可。

期待后面，开发出更多关于shell的玩法。。。

使用shell命令获取简书主页文章
概述之前接口测试的时候，经常遇到从response中截取数据的情况，处理起来可能也相对简单一点。今天换个玩法，用...
Linux的at命令
文章作者：Tyan博客：noahsnail.com | CSDN | 简书 1. at命令介绍当使用shell脚...
常用的shell脚本记录
主要记录《Linux Shell 脚本攻略》一书很使用的脚本命令，以备用！基础入门命令 1、获取字符串长度 2、...
四.shell脚本语言
shell脚本: 文件包含 cat命令介绍获取用户输入_read命令 printf命令使用函数输入/输出重定...
Dumpsys 命令使用
获取Camera信息使用命令: adb shell dumpsys media.camera > info.txt...
adb shell 命令相关功能
adb shell 命令相关功能 Tags： adb_shell adb shell wm 命令获取屏幕相关信息 ...
【python基础】５-执行外部命令
调用Shell命令使用扩展调用Shell命令获取命令输出和重定向这一章节的样例输出可能基于你的用户名、工作目...
【Markdown】Shell命令高亮显示
【问题】shell命令，黏贴到简书的代码块上，#后面的命令显示成被注释掉的效果【目的】高亮显示shell命令【...
抓取动态加载的简书个人主页
准备工作采用语言python所需库requests、re、math 获取动态链接打开简书个人主页，推荐使用浏览...
Linux 教程
本系列文章介绍使用 Linux 操作系统的相关命令和操作，纯属个人积累，欢迎参考。 Shell 脚本 Shell ...

使用shell命令获取简书主页文章

概述

详述

curl命令学习

1.获取页面内容

2.发送POST请求

3.显示响应头

4.保存响应的内容

grep命令学习

awk命令学习

举个例子：

结束

相关文章

使用shell命令获取简书主页文章

Linux的at命令

常用的shell脚本记录

四.shell脚本语言

Dumpsys 命令使用

adb shell 命令相关功能

【python基础】５-执行外部命令

【Markdown】Shell命令高亮显示

抓取动态加载的简书个人主页

Linux 教程

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Linux

程序员

软件测试

现代操作系统

爬虫

Shell

程序员技术栈

LINUX