2020-12-25 圣诞快乐
# 网络爬虫,又被称为网络蜘蛛,网络机器人,网页追逐者,按照指定的规则及算法自动浏览或抓取网络中的信息
# 分类:通用网络爬虫、增量式网络爬虫,深层网络爬虫
# 1.通用网络爬虫,又叫全网爬虫,主要用于大型搜索引擎中,主要由初始URL集合、URL队列、页面爬行模块、页面分析模块、页面数据库、链接过滤模块等构成
# 2.聚焦网络爬虫,又叫主题网络爬虫,按照预先定义好的主题,有选择地进行相关网页爬取。主要应用在对特定信息的爬取,为某一特定的人群提供服务
# 3.增量式网络爬虫,只爬取新建或新更新的页面
# 4.深层网络爬虫
# WEB页面按存在方式分为表层网页和深层网页,表层网页指的是不需要提交表单,使用静态的超链接就可以直接访问的页面
# 深层网页指的是哪些大部分内容不能通过静态链接获取的,隐藏在搜索表单后面的,需要用户提交一些关键词才能获得的页面
# 基本工作流程
# 获取初始URL——爬取页面获取新的URL——抽取新的URL放入URL队列中——读取新的URL下载网页
import requests
r = requests.get('http://www.people.com.cn/')
print("文本编码:", r.encoding)
print("响应状态码:", r.status_code)
print("字符串方式的响应体:", r.text)
网友评论