美文网首页
爬虫相关科普

爬虫相关科普

作者: 胖达_4b7e | 来源:发表于2018-12-09 00:48 被阅读0次

爬虫分类

https://www.kancloud.cn/ziyifeng/seo_one/204439

(1)通⽤
一些种子 URL扩充到整个Web,什么数据都要,主要为门户站点搜索引擎和大型 Web 服务提供商采集数据
(2)聚焦
⽬目标明确
比通用增加了链接评价模块以及内容评价模块
(3)增量
比如,从第⼀页请求到最后⼀页, 只爬行新产生的
(4)Deep Web
表层网页是指传统搜索引擎可以索引的页面,以超链接可以到达的静态网页为主构成的 Web 页面。Deep Web 是不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的 Web 页面。例如那些用户注册后内容才可见的网页。

robots

robots.txt文件
写明了希望那些不爬, 只能禁止通用爬虫 就是搜索引擎
比如简书的 https://www.jianshu.com/robots.txt
网站url 加上/robots.txt就能看到

爬虫的步骤

  • 1.找到目标的url
    比如
    地址栏是
    https://www.google.com.hk/search?q=美女&oq=美女&aqs=chrome..69i57.4673j1j7&sourceid=chrome&ie=UTF-8
    但是有冗余 其实
    https://www.google.com.hk/search?q=美女就够了
    看地址栏看html能看到的是最简单的, 不一定有这么简单
  • 2.发送请求获取数据(java go python)
  • 3.解析获取到的数据(精确数据)
    下载视频,可能被分割了, 图片, 音频
    可能需要回到1
    1. 数据持久化 xml mysql mogodb

IP分类:

透明:直接看到我的真实的ip
匿名:看不到我ip, 知道我用了代理
⾼匿:看不到我真实ip 还不知道我用了代理

相关文章

  • 爬虫相关科普

    爬虫分类 https://www.kancloud.cn/ziyifeng/seo_one/204439 (1)通...

  • 爬虫相关

    前一个系列的文章是关于勘察的,下面这个系列是关于爬虫的,主要内容如下: 使用 Wget 下载一个页面用于离线分析 ...

  • 爬取1000条百度百科词条

    爬虫是什么? 爬虫是一段自动抓取互联网信息的程序,从而可以更好利用数据进行相关分析,做出相关决策。 简单的爬虫架构...

  • 网络爬虫(四)

    爬虫大约分三种: 通用爬虫: 获取相关页面整页数据。 聚焦爬虫:根据所需抓取页面指定的数据。 增量爬虫:检测到网页...

  • 爬虫究竟是合法还是违法的?

    来源:知乎 人有好坏,虫也有善恶。前方强势科普一波“爬虫”,有需要自行收藏:) 首先来谈谈啥子叫“爬虫”? 你有没...

  • GO学习笔记(24) - 爬虫(1) - 入门

    目录 爬虫的法律风险 - robots协议 开源框架: Crawlab 开源框架: colly 爬虫相关知识(待补...

  • Python第二天(爬虫相关)

    单行注释# 爬虫需要掌握的技术 1. python基础语法 2. HTML结构 3. 爬虫模块的使用 爬虫相关 安...

  • 爬虫性能相关

    背景知识 爬虫的本质就是一个socket客户端与服务端的通信过程,如果我们有多个url待爬取,只用一个线程且采用串...

  • 爬虫相关总结

    在做防止网站被爬虫爬取数据的时候,其中最简单的方式就是判断请求是程序生产的,还是人为生成的。 当然,最简单的就是通...

  • python爬虫相关

网友评论

      本文标题:爬虫相关科普

      本文链接:https://www.haomeiwen.com/subject/rurchqtx.html