美文网首页
探索百度链接(URL)中的那些编码变化

探索百度链接(URL)中的那些编码变化

作者: 不爬爬 | 来源:发表于2020-03-18 11:51 被阅读0次

    小惑有观察

    最近在做有关爬虫的东西,拿百度练手,在定向爬虫发现百度的搜索链接中有个很有意思的情况。

    众所周知,百度首页的链接为 https://www.baidu.com/。

    假定我们搜索迪丽热巴,网页的URL变为

    复制该链接再粘贴是,会发现搜索关键词

    ’迪丽热巴’

    变为

    ’%E8%BF%AA%E4%B8%BD%E7%83%AD%E5%B7%B4’

    那么这个网址是怎么变化的了?

    https://www.baidu.com/s?wd=%E8%BF%AA%E4%B8%BD%E7%83%AD%E5%B7%B4&

    (’&'后还有一些内容,防治泄露个人信息我给删了)

    因为中文汉字在URL不符合编码方式,于是就采取了转化编码。

    举个栗子

    # 迪丽热巴

    key_word = '迪丽热巴'

    key_word = urllib.parse.quote(key_word,encoding = 'utf-8', errors = 'replace')

    解释:

    parse为解析功能

    quote为编码功能

    errors是为了替换加上 ’ % '功能

    运行结果非常amazing:

    对比一下百度链接:

    https://www.baidu.com/s?wd=%E8%BF%AA%E4%B8%BD%E7%83%AD%E5%B7%B4&

    补充:

    运行时记得加上头文件

    import urllib

    (我发现很多帖子中讲代码很多都忘记说头文件的时)

    没有urllib直接在cmd中pip install urllib

    如果出错请自行百度。

    另附一张文不对题的图

    感兴趣的小伙伴可以关注我的个人公众号:小惑有观察。

    相关文章

      网友评论

          本文标题:探索百度链接(URL)中的那些编码变化

          本文链接:https://www.haomeiwen.com/subject/npeqyhtx.html