PythonSNs(2)---Requests库的爬取性能分析

作者: Wayne_Dream | 来源:发表于2018-05-16 22:38 被阅读16次

PythonSNs(2)---Requests库的爬取性能分析
Python基础学习18
程序员都有对象！没有的也用Python找了成千上万个了！不信你看
Python程序设计思维练习---股票数据定向爬虫
网络爬虫与信息提取（二）
【基础】学习笔记62-Python3爬取与分析网页中的数据
LA2 Requests-BS4-Re库实验
PythonSNs(4)---20行代码爬取斗鱼平台房间数据（上
python：通过输入关键词动态爬取图片保存于本地
爬取不可视化爬虫源码，复制粘贴就能用！python 暴力爬_极简

“任意”找个url，测试一下成功爬取100次网页的时间。（某些网站对于连续爬取页面将采取屏蔽IP的策略，所以，要避开这类网站。）

import requests
import time
def getHtmlText(url):
    try:       # try except:用于异常处理
        r = requests.get(url, timeout=30)   # get到网站  timeout=30:如果get时间超过30s,则停止等待响应 
        r.raise_for_status()                        # 检测是否连接成功
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return '运行异常'

if __name__ == "__main__":  # Python 模拟的程序入口
    url = 'https://www.baidu.com'
    totaltime = 0
    for i in range(100):
        starttime = time.perf_counter()
        getHtmlText(url)
        endtime = time.perf_counter()
        print('第{0}次爬取，用时{1:.4f}秒'.format(i+1, endtime-starttime))
        totaltime=totaltime+endtime-starttime
    print('总共用时{:.4f}秒'.format(totaltime))

这是用百度做的测试，有兴趣的可以试试别的网站，小心被封ip哦，特别是某些直播网站，封了的话可能一段时间全寝室都看不了直播了！！！哼哼
if __name__ == "__main__":对这条代码有疑问的可转至：http://blog.konghy.cn/2017/04/24/python-entry-program/