中国网络安全相关政策法规

作者: 爱看时事的通信崔 | 来源:发表于2020-02-02 17:05 被阅读0次

中国网络安全相关政策法规
计算机｜互联网｜相关
中国区块链相关政策法规演变史
2018前端面试总结，看完弄懂，工资少说加3K
记一次线上由 SNI 导致的证书校验失败
公钥信任问题 — 数字证书与 CA
更好的 TLS 1.3 协议解析
网络安全的基石（下）— 完整性与身份认证
信任始于握手 — TLS 1.2 连接过程详解
IT行业仍然吃香，来昆明牵引力学IT前程似锦

大部分单位网络安全的典型特征是，各项业务开展以及IT发展，必须遵守各项管理法律法规要求，也就是常说的“合规”。合规是网络安全的底线和最低要求，其目标是避免违反法律法规、规章制度明确规定的风险。

要做好合规，先要搜集相关的政策法规，我在网上发现，已经有人造了一个网络安全政策汇编的轮子，网址如下：
鲜鲜实验室-网络安全政策法规汇编

虽然不用自己逐个整理，已经省了很多事，但是如此多的文件，需要逐个点击下载，还是令我感到非常枯燥。

需要逐个点击的链接

接着，我便想到了爬虫，于是我把下载文件的目标分成了几个步骤：

明确目的。目的是用爬虫提取出下载链接即可，这个需求非常简单，只涉及一个网页，不需要使用任何框架，直接抓取即可。
找到下载链接所在的网页，也就是上面的网页链接。

http://www.xianxianlabs.com/2020/01/26/china_cyber_security_law/

分析网页的结构找到数据所在的标签位置。
网页就是浏览器对HTML文件的解析，网页上的数据存储在一个个HTML标签中的。要查找对应的标签，方法很简单，以谷歌浏览器为例，在浏览器中找到关注的文件链接，直接点击右键选择“检查”，就可以定位到所需要标签位置。

找到对应的标签
模拟http请求，向服务器发送请求，获取到服务器返回的html源代码
用正则表达式提取我们要的数据，最终得到所有文件的链接地址，具体需要处理的链接如下：

#<a href="http://www.xianxianlabs.com:80/wp-content/uploads/2020/01/中华人民共和国电子签名法.docx">中华人民共和国电子签名法</a>

在明确所有步骤后，接下来的代码就简单了，下面直接贴出来供参考。

import re # 正则表达式
from urllib import request # request对象获取网页

class Spider():
    # 获取网页html内容
    url = 'http://www.xianxianlabs.com/2020/01/26/china_cyber_security_law/' # 对应的网页
    m_pattern = '<a href="[\s\S]*?</a>' # 匹配需要的字符  ,[\s\S]*:默认字符，？非贪婪模式
    def __fetch_content(self):  ## 双下划线私有方法的意思
        r = request.urlopen(Spider.url)
        htmls = r.read() # 获取到tytes
        htmls = str(htmls, encoding='utf-8') # 转换成string
        return htmls
    def __analysis(self, htmls): ## 分析网页内容
        m_html = re.findall(Spider.m_pattern, htmls)
        for link in m_html:
            if '.doc' in link:
                m_link = link.split('"')[1]
                print(m_link)
    def go(self):
        htmls = self.__fetch_content()
        self.__analysis(htmls)

if __name__ == '__main__':
    spider = Spider()
    spider.go()

试着运行一下，文件链接全部提取到。

文件链接