爬虫分类
(1)通⽤
一些种子 URL扩充到整个Web,什么数据都要,主要为门户站点搜索引擎和大型 Web 服务提供商采集数据
(2)聚焦
⽬目标明确
比通用增加了链接评价模块以及内容评价模块
(3)增量
比如,从第⼀页请求到最后⼀页, 只爬行新产生的
(4)Deep Web
表层网页是指传统搜索引擎可以索引的页面,以超链接可以到达的静态网页为主构成的 Web 页面。Deep Web 是不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的 Web 页面。例如那些用户注册后内容才可见的网页。
robots
robots.txt文件
写明了希望那些不爬, 只能禁止通用爬虫 就是搜索引擎
比如简书的 https://www.jianshu.com/robots.txt
网站url 加上/robots.txt就能看到
爬虫的步骤
- 1.找到目标的url
比如
地址栏是
https://www.google.com.hk/search?q=美女&oq=美女&aqs=chrome..69i57.4673j1j7&sourceid=chrome&ie=UTF-8
但是有冗余 其实
https://www.google.com.hk/search?q=美女
就够了
看地址栏看html能看到的是最简单的, 不一定有这么简单 - 2.发送请求获取数据(java go python)
- 3.解析获取到的数据(精确数据)
下载视频,可能被分割了, 图片, 音频
可能需要回到1 - 数据持久化 xml mysql mogodb
IP分类:
透明:直接看到我的真实的ip
匿名:看不到我ip, 知道我用了代理
⾼匿:看不到我真实ip 还不知道我用了代理
网友评论