Python终究大招之爬虫:初窥门径(1)

作者: 圣人便无名 | 来源:发表于2019-02-26 00:03 被阅读0次

    Python终极,当前看来无法是三个方向:
    1.web后端配套django等
    2.网络爬虫方向的数据分析
    3.机器学习神经网络方向

    下面对三大法之一的网络爬虫略作叙述

    网络爬虫大抵可分为下面四类:
    1.通用型网络爬虫 尽可能大范围爬虫
    2.聚焦型网络爬虫 有目的性的针对型爬虫
    3.增量型网络爬虫 针对增量信息,内存消耗小,难度大,去重之类的
    4.深层型网络爬虫 深层爬虫,反反爬

    爬虫的用途:
    1.科学研究
    。。。。额,这个有点伟光正
    2.web安全
    你爬我,我爬你,美滋滋

    1. 产品研发
      了解产业方向等信息
      4.舆论监控
      开门,查水表

    爬虫的基础知识
    1.Python基础语言
    2.W3C标准
    html,css,javascript,xpath,json等

    1. http标准
      http请求方式,过程,cookie状态等
      4.数据库
      SQLSite,mysql,redis,mongoDB等

    数据库用于爬取得数据存储,

    不求多熟悉,要了解相关的概念。

    python网络爬虫技术
    1.爬取
    urlib,urlib3,request,selenium,scrapy等
    模拟向浏览器发生http请求
    2.解析
    数据解析库,lxml,beautifulsoup4,re,pyquery,xpath等

    相关文章

      网友评论

        本文标题:Python终究大招之爬虫:初窥门径(1)

        本文链接:https://www.haomeiwen.com/subject/llqoyqtx.html