python基础学习：网络爬虫

作者: 0清婉0 | 来源:发表于2020-12-25 21:40 被阅读0次

Python网络爬虫（八） - 利用有道词典实现一个简单翻译程序
Python网络爬虫（七）- 深度爬虫CrawlSpider
Python网络爬虫（二）- urllib爬虫案例
Python网络爬虫（一）- 入门基础
Python网络爬虫（四）- XPath
Python网络爬虫（三）- 爬虫进阶
Python网络爬虫（六）- Scrapy框架
Python网络爬虫（五）- Requests和Beautifu
Python网络爬虫实战之十四：Scrapy结合scrapy-s
Python网络爬虫实战之七：动态网页爬取案例实战 Seleni

2020-12-25 圣诞快乐

# 网络爬虫，又被称为网络蜘蛛，网络机器人，网页追逐者，按照指定的规则及算法自动浏览或抓取网络中的信息

# 分类：通用网络爬虫、增量式网络爬虫，深层网络爬虫

# 1.通用网络爬虫，又叫全网爬虫，主要用于大型搜索引擎中，主要由初始URL集合、URL队列、页面爬行模块、页面分析模块、页面数据库、链接过滤模块等构成

# 2.聚焦网络爬虫，又叫主题网络爬虫，按照预先定义好的主题，有选择地进行相关网页爬取。主要应用在对特定信息的爬取，为某一特定的人群提供服务

# 3.增量式网络爬虫，只爬取新建或新更新的页面

# 4.深层网络爬虫

# WEB页面按存在方式分为表层网页和深层网页，表层网页指的是不需要提交表单，使用静态的超链接就可以直接访问的页面

# 深层网页指的是哪些大部分内容不能通过静态链接获取的，隐藏在搜索表单后面的，需要用户提交一些关键词才能获得的页面

# 基本工作流程

# 获取初始URL——爬取页面获取新的URL——抽取新的URL放入URL队列中——读取新的URL下载网页

import requests

r = requests.get('http://www.people.com.cn/')

print("文本编码：", r.encoding)

print("响应状态码：", r.status_code)

print("字符串方式的响应体：", r.text)

网友评论

本文标题：python基础学习：网络爬虫

本文链接：https://www.haomeiwen.com/subject/sdninktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

python基础学习：网络爬虫

相关文章

Python网络爬虫（八） - 利用有道词典实现一个简单翻译程序

Python网络爬虫（七）- 深度爬虫CrawlSpider

Python网络爬虫（二）- urllib爬虫案例

Python网络爬虫（一）- 入门基础

Python网络爬虫（四）- XPath

Python网络爬虫（三）- 爬虫进阶

Python网络爬虫（六）- Scrapy框架

Python网络爬虫（五）- Requests和Beautifu

Python网络爬虫实战之十四：Scrapy结合scrapy-s

Python网络爬虫实战之七：动态网页爬取案例实战 Seleni

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读