美文网首页
爬虫-01day

爬虫-01day

作者: 看三小 | 来源:发表于2018-12-18 10:22 被阅读0次

1、企业产生数据:用户产生数据。
2、数据管理公司。
3、政府数据-人口普查。
4、第三方数据公司。
5、爬虫。

爬虫 -----爬取数据的程序

网页特征

1、每个网页都有不同的URL(统一资源定位符)
2、都由html构成。
3、都用http(s)协议传输。

爬虫怎么抓取网页:

1、定位你要的URL地址。
2、然后下载网页内容。
3、提取有用的数据。有其他URL,继续爬。

为啥用python做爬虫?(垃圾回收机制)

PHP天生干后端。爬虫效率低。
java:是python爬虫最大对手,java代码量很大。
c/c++:几乎是最高效率的,学习难度大,不建议使用。付出与产出不成正比。
python:语法较简单,效率高,框架多,在Scrapy,分布式Scrapy-redis。

爬虫与反爬虫与反反爬虫

1、User-Agent:判断你是不是一个爬虫,以后爬取时最好带上UA。
2、数据加密:把解密程序找到。
3、封IP:后端有个中间件。(IP代理池)

相关文章

  • 爬虫-01day

    1、企业产生数据:用户产生数据。2、数据管理公司。3、政府数据-人口普查。4、第三方数据公司。5、爬虫。 爬虫 ...

  • 水星燃烧-01days-#裂变增长实验室#

    01day课程思维导图

  • 01day

    添加分割线 换行 <小于 >大于 空格--- 版权---© 引号-...

  • 01day

    I spend this day as I spend every other day, That's why i...

  • 01day yoyo

    学习笔记 问题 实践做 上周裂变失败,社群也失败,认认真真学习

  • 后端01day

    Django(python的wed框架之一)遵循mvc的设计思想设计出来的m---->model:和数据库交互(封...

  • Flask 01day

    1、 https 为什么比 http 更安全? http --> 超文本传输协议 -- 应用层 --> 端口80 ...

  • 入门

    命令 01day cd 命令 查看ls- lh ll 有问题找男人man 自动补全 tab键 历史命令 his...

  • 人们口中地道东北菜, 到底最该去哪吃? ​

    by 图虫网 行程安排: 01DAY:哈尔滨集合02DAY:哈尔滨—二浪河摄影基地(新雪乡)—(包饺子,雪地篝火,...

  • 11.20-11.26

    本周目标 爬虫 爬虫 爬虫 爬虫

网友评论

      本文标题:爬虫-01day

      本文链接:https://www.haomeiwen.com/subject/yockkqtx.html