美文网首页
爬虫的步骤

爬虫的步骤

作者: 精彩i人生 | 来源:发表于2019-01-30 17:10 被阅读0次

    爬虫代码基本步骤

    第一步:

    分析网站,寻找目标URL

    第二步:

    分析目标URL参数(get,post)

    get和post请求的区别:

    get请求参数部分:把?后面的参数写在字典中,然后使用parse.urlencode(字典参数),得到了url编码格式的字符串

    post请求参数部分:是处理表单数据,将变淡u数据放在字典中,然后使用parse.urlencode(字典参数),得到了url编码格式的字符串使用encode方法将字符串转为bytes类型

    第三步(发起请求):

    (1):设置请求头,添加UA(cookie,referer)
    (2):实例化一个Request对象(request.Request)
    (3):根据实例化的Request对象,使用request.urlopen()方法发起请求

    第四步(处理响应结果):

    (1):Ajax请求得到的一般是json数据,使用json模块处理,使用json.loads将json字符串,转为python数据类型
    (2):对于飞非结构化数据(数据在html页面中),可以使用re正则模块提取数据(xpath,BeautifulSoup,pyquery)
    (3):如果还有其他url需要发起请求则继续发起请求

    第五步(数据的持久化):

    (1):文件存储(json,csv,txt。。。。。。)
    (2):数据库存储(mongodb,MySQL,redis。。。。。。)

    相关文章

      网友评论

          本文标题:爬虫的步骤

          本文链接:https://www.haomeiwen.com/subject/pumajqtx.html