1、安装requests-html
pip install requests-html
2、代码块
# 引入requests-html
import requests_html
# 获取页面
html= requests_html.HTMLSession().get('https://www.baidu.com')
# 获取页面全部的链接
url= html.html.absolute_links
# 遍历页面全部链接
for Url in url:
# 判断url是不是一个链接
if('https://' in Urlor 'http://' in Url):
# 获取当前链接页面
url= requests_html.HTMLSession().get(Url)
if(url.ok):
# 页面可访问就跳过
continue
else:
# 页面不能访问就把错误url打印出来
print("不能访问\t"+Url)
else:
print('不是链接'+Url)
注:(最好设置代理或者连上自己的热点)部分网页https://beian.miit.gov.cn校验不通过,换成自己的热点就能校验通过。
网友评论