一点资讯爬虫分析以及js参数破解

作者: WangLane | 来源:发表于2019-04-16 10:50 被阅读0次

一点资讯爬虫分析以及js参数破解
爬虫破解js加密破解（二）有道词典js加密参数 sign破解
爬虫进阶之 JS 破解
YouDao翻译JS破解
逆向爬虫时，Python 如何正确调用 JAR 加密逻辑？
js逆向之有道翻译加密的破解
去除静态html的缓存--动态引入js文件
由一个简单的Python合并字典问题引发的思考，如何优化我们的代
bilibili(2)-弹幕语言处理分析
破解有道字典查询JS加密算法:

文章内容

主页预览
文章内容直接get主页就可以拿到，页面内容太长，这里就不贴具体内容了，chrome自行查看。URL结构也非常简单，只需要修改后面的文章id就可以。

搜索界面

============ 2019年8月10日更新
一点资讯的搜索接口有调整，新的搜索接口：
Post 请求
请求url：

https://a1.go2yd.com/Website/channel/news-list-for-keyword?display=%E4%B8%B4%E6%B5%B7%E5%85%A8%E5%B8%82%E8%A2%AB%E6%B7%B9&word_type=token&ctype=overall&cstart=0&cend=10&refresh=1&fields=ctype&fields=url&fields=dtype&fields=image&fields=image_urls&fields=title&fields=source&fields=date&fields=comment_count&fields=like&channel_fake=suggest&version=999999&appid=web_mixapp&platform=1&distribution=com.yidianzixun

参数中的display是搜索的关键词
请求头：

user-agent:Mozilla/5.0 (Linux; Android 8.1.0; Redmi 5A Build/OPM1.171019.026; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/71.0.3578.99 Mobile Safari/537.36 hap/1.5/xiaomi com.miui.hybrid/1.5.0.1 com.yidian.hybrid.main/1.6.6 ({"packageName":"com.xiaomi.market","type":"other","extra":{}})
content-type:application/json; charset=utf-8
content-length: 2
accept-encoding:gzip
cookie:JSESSIONID=constant-session-1

image.png

============ 旧版搜索（已经不能使用）
搜索界面预览（请使用chrome的手机模拟）

搜索接口
这个接口返回的是输入框输入之后提示出来的信息，这个其实要比点击搜索之后给出的要好，因为这个里面给出的信息很多。大概结构是这样：

image.png
注意到可能提示出不同类型的东西，重点看type，type有5个类型：

keyword：用户输入的关键词
sugkwd： suggest keyword
media：号主
user_channel：用户自建频道
category：可以看成是官方的频道

这里备用一下完整的参数请求，实际上大胆去掉后面两个参数，并不影响我们获取内容。

http://www.yidianzixun.com/home/q/search_channel?word=XXX&appid=web_yidian&_=1555302409064

热搜（10个）

在搜索界面会提示当前的热搜关键词，接口页面：
热搜接口

http://www.yidianzixun.com/home/q/hot_search_keywords?appid=web_yidian&_=1555306597594

首页推荐

基础url

http://www.yidianzixun.com/home/q/news_list_for_channel

请求参数

channel_id: best    
cstart: 10
cend: 20
infinite: true
refresh: 1
__from__: wap
docids: 0LjEONKq,0LatpVAx,V_02ccJplc,0K16WkK2,0Lh5Rowk
_spt: yz~eaodhoy~;:8:
appid: web_yidian
_: 1555308767037

我们不断的下拉，查看异步请求，filter设置为 channel?
然后对比请求发现参数的规律如下

channel_id: 频道id，推荐页面为best，其他页面为数字串
cstart: 开始页面
cend: 停止页面
_spt: 一个略微变化的参数

其他参数都是固定值。所以我们需要追踪_spt这个参数。全局搜索一下_spt，只有一个文件中发现了这个字符串

定位到这个函数中function(e, t, i), 我们给函数打上一堆断点，然后F5刷新页面，稍等一会，页面会加载到断点的位置暂停，我们按F8可以继续执行。然后不断的按下F8，我们可以看到各个变量的值，
执行到59行时：

t.encodeToken = function(e, t, i, n)

这时候拿到channel_id，保存在变量t中，这里拿到的t是best，当然，不同的广场标签对应channel不一样。这个id明文传输在参数中。
继续F8，我们开始进入到第一个循环中，变量o的初始值为sptoken，循环会把arguments中除了第一个字符串全部追加的o的后面，arguments中有四个字符串

image.png

看下这几个字符串都是什么，

Argument[0] : 资源地址，不用看，这里不需要
Argument[1]：很好猜，就是channel_id
Argument[2]：这个不清楚
Argument[3]：这个不清楚

现在就差后面两个参数，我们不断上划加载数据然后重复F8的过程看看数据的变化：

image.png

可以看到后面两个参数就是起止数目，参数中的cstart和cend。于是到此为止，可以说基本破解成功了。我们写个python函数：

def get_spt(channel_id, cstart, gap=10):
    """
    Get sptoken for yidian main pain, which is _sp param in request header.
    :param start: cstart param in request header.
    :param channel_id: channel_id param in request header.
    :return: sptoken string
    """
    cend = cstart + gap
    s = 'sptoken' + str(channel_id) + str(cstart) + str(cend)
    spt = ''
    for c in s:
        tmp = 10 ^ (ord(c))
        spt = spt + chr(tmp)
    return spt

对比一下网站的参数：

image.png

搞定！

个人首页

这里有个地方很有意思啊，该网站对web的访问控制是通过明文参数控制的

#这个里面的文章都会连接到App下载界面
http://www.yidianzixun.com/channel/m596204?appid=&sharedl=0
# 这个就可以点开文章
http://www.yidianzixun.com/channel/m596204

个人首页
然后，链接地址就出现在了对应的标签中。很容易找到。

网友评论

本文标题：一点资讯爬虫分析以及js参数破解

本文链接：https://www.haomeiwen.com/subject/dvaywqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

一点资讯爬虫分析以及js参数破解

文章内容

搜索界面

热搜（10个）

首页推荐

个人首页

相关文章

一点资讯爬虫分析以及js参数破解

爬虫破解js加密破解（二）有道词典js加密参数 sign破解

爬虫进阶之 JS 破解

YouDao翻译JS破解

逆向爬虫时，Python 如何正确调用 JAR 加密逻辑？

js逆向之有道翻译加密的破解

去除静态html的缓存--动态引入js文件

由一个简单的Python合并字典问题引发的思考，如何优化我们的代

bilibili(2)-弹幕语言处理分析

破解有道字典查询JS加密算法:

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读