第9章: 爬虫

第9章: 爬虫

作者: 404Not_Found | 来源:发表于2021-12-06 07:36 被阅读0次

Python爬虫视频教程
爬虫2 BeautifulSoup
Node爬虫相关
老司机带你学爬虫——Python爬虫技术分享
Python爬虫：学爬虫前得了解的事儿
Python 爬虫零基础教程(0):简介及准备
2019-01-16《Learning Scrapy》（中文版）
《Learning Scrapy》（中文版）第2章理解HTML
《Learning Scrapy》（中文版）第11章 Scrap
《Learning Scrapy》（中文版）第4章从Scrap

作者: 雪山肥鱼
时间：20211206 23:24
目的: 简单了解爬虫

爬虫即web机器人，能偶在无需人类干预的情况下自动进行一系列web事务的软件程序。很多机器人会从一个web站点逛到另一个web站点，获取内容，跟踪超链接。并对他们找打的数据进行处理。

web机器人示例：

股票图形机器人每隔几分钟就会向股票市场的服务器发送http get, 用得到的数据来构建股市价格趋势图
web统计机器人会收集与网络有关的统计信息，他们会在web上游荡，统计页面数量，记录每隔页面大小。
搜索殷勤机器人会收集他们所找到的所有文档，以创建搜索数据库
比较购物机器人会从在线商店的目录中收集web页面，以构建商品，机器价格数据库

1. 爬虫及爬行方式

web爬虫会递归的追踪web连接，抓取一个web上的所有连接的连接。会沿着html超链接创建网络爬行，所以称其为爬虫。

搜索引擎
搜索引擎使用爬虫在web上游荡，并把他们碰到的文档全部拉回来。然后对这些文档进行处理，形成一个可搜索的数据库。以便用户查找包含了特定单词的文档。
网上有数以万计的web 页面需要查找和取回，这些爬虫必然是最复杂的机器人。

1.1 从哪儿开始: 根集

爬虫开始访问的url初始集合被重做root set 根集。

爬虫形象图.png

很明显 S 不是一个很好的root set.

通常，一个好的根基会包括：

大的流行web站点。
新创建页面列表
不经常被连接的无名页面列表
搜索殷勤使用的爬虫，都为用户提供了向根集中提交新页面或无名页面的方式。这个根集会随时间推移而增长。是所有新爬虫的种子列表

相关文章

Python爬虫视频教程
├─第1章【第0周】网络爬虫之前奏│ ├─第1节“网络爬虫”课程内容导学│ │ 第1部分全课程内容导...
爬虫2 BeautifulSoup
第0关的requests库帮我们搞定了爬虫第0步——获取数据；第1关的HTML知识，是进行爬虫必不可少的背景知识，...
Node爬虫相关
网络爬虫开发第1章课程介绍什么是爬虫爬虫的意义课程内容前置知识什么是爬虫可以把互联网比做成一张“大...
老司机带你学爬虫——Python爬虫技术分享
什么是“爬虫”？简单来说，写一个从web上获取需要数据并按规定格式存储的程序就叫爬虫；爬虫理论上步骤很简单，第...
Python爬虫：学爬虫前得了解的事儿
这是关于Python的第14篇文章，主要介绍下爬虫的原理。提到爬虫，我们就不得不说起网页，因为我们编写的爬虫实际...
Python 爬虫零基础教程(0):简介及准备
其他的教程往往从语法开始，而我们直接开始爬虫，语法等知识边做边学。这第0篇我们简单介绍下爬虫和编程工具。爬虫是什...
2019-01-16《Learning Scrapy》（中文版）
序言第1章 Scrapy介绍第2章理解HTML和XPath 第3章爬虫基础第4章从Scrapy到移动应...
《Learning Scrapy》（中文版）第2章理解HTML
序言第1章 Scrapy介绍第2章理解HTML和XPath第3章爬虫基础第4章从Scrapy到移动应用第5...
《Learning Scrapy》（中文版）第11章 Scrap
序言第1章 Scrapy介绍第2章理解HTML和XPath第3章爬虫基础第4章从Scrapy到移动应用第5...
《Learning Scrapy》（中文版）第4章从Scrap
序言第1章 Scrapy介绍第2章理解HTML和XPath第3章爬虫基础第4章从Scrapy到移动应用第5...

网友评论

本文标题：第9章: 爬虫

本文链接：https://www.haomeiwen.com/subject/trqoxrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|第9章: 爬虫|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！