美文网首页
Python爬虫理论知识

Python爬虫理论知识

作者: 杰伊_约翰 | 来源:发表于2019-01-27 15:45 被阅读3次

    基本流程

    1.分析网站,寻找目标url

    2.分析目标url参数(get/post)
    (1)get请求参数部分:把?后面的参数写在字典中,然后使用parse.urlencode(字典参数),得到了url编码格式的字符串

    (2)post请求参数部分:处理表单数据,将表单数据放在字典中,使用parse.urlencode(字典参数),得到了url编码格式的字符串,
    最后使用encode方法将字符串转为bytes类型。

    3.发起请求
    (1)设置请求头,添加UA(cookie,referer)
    (2)实例化一个Request对象(request.Request)
    (3)根据实例化的Request对象,使用request.urlopen()方法发起请求

    4.处理相应结果
    (1)Ajax请求得到的一般是json数据,使用json模块处理使用json.loads将json字符串,转为python数据类型
    (2)对于非结果化数据(数据在html页面中),使用re正则模块处理提取处理(xpath,BeautifulSoup,pyquery)
    (3)如果还有其他url发起请求,则继续发起请求

    5.数据持久化
    (1)文件存储(json,csv,txt)
    (2)数据库存储(mysql,mongodb,redis)

    相关文章

      网友评论

          本文标题:Python爬虫理论知识

          本文链接:https://www.haomeiwen.com/subject/wkqijqtx.html