美文网首页
网络爬虫基础

网络爬虫基础

作者: 遇明不散 | 来源:发表于2019-06-05 16:05 被阅读0次

    网络爬虫

    • 网络蜘蛛、网络机器人,抓取网络数据的程序
    • 用Python程序去模仿人去访问网站,模仿的越逼真越好
    • 通过有效的大量数据分析市场走势、公司决策

    企业获取数据的方式

    • 公司自有数据
    • 第三方数据平台购买
    • 爬虫爬取数据

    Python做爬虫优势

    • 请求模块、解析模块丰富成熟,强大的scrapy框架
    • PHP:对多线程、异步支持不太好
    • JAVA:代码笨重,代码量很大
    • C/C++:虽然效率高,但是代码成型很慢

    爬虫分类

    通用网络爬虫

    搜索引擎引用,需要遵守robots协议

    聚焦网络爬虫

    自己写的爬虫程序:面向主题的爬虫、面向需求的爬虫

    爬取数据步骤

    • 确定需要爬取的URL地址
    • 通过HTTP/HTTPS协议来获取相应的HTML页面
    • 提取HTML页面有用的数据
      • 所需数据,保存
      • 页面中有其他的URL,继续 第2步

    相关文章

      网友评论

          本文标题:网络爬虫基础

          本文链接:https://www.haomeiwen.com/subject/rpojxctx.html