美文网首页
python基础学习:网络爬虫

python基础学习:网络爬虫

作者: 0清婉0 | 来源:发表于2020-12-25 21:40 被阅读0次

2020-12-25  圣诞快乐

# 网络爬虫,又被称为网络蜘蛛,网络机器人,网页追逐者,按照指定的规则及算法自动浏览或抓取网络中的信息

# 分类:通用网络爬虫、增量式网络爬虫,深层网络爬虫

# 1.通用网络爬虫,又叫全网爬虫,主要用于大型搜索引擎中,主要由初始URL集合、URL队列、页面爬行模块、页面分析模块、页面数据库、链接过滤模块等构成

# 2.聚焦网络爬虫,又叫主题网络爬虫,按照预先定义好的主题,有选择地进行相关网页爬取。主要应用在对特定信息的爬取,为某一特定的人群提供服务

# 3.增量式网络爬虫,只爬取新建或新更新的页面

# 4.深层网络爬虫

# WEB页面按存在方式分为表层网页和深层网页,表层网页指的是不需要提交表单,使用静态的超链接就可以直接访问的页面

# 深层网页指的是哪些大部分内容不能通过静态链接获取的,隐藏在搜索表单后面的,需要用户提交一些关键词才能获得的页面

# 基本工作流程

# 获取初始URL——爬取页面获取新的URL——抽取新的URL放入URL队列中——读取新的URL下载网页

import requests

r = requests.get('http://www.people.com.cn/')

print("文本编码:", r.encoding)

print("响应状态码:", r.status_code)

print("字符串方式的响应体:", r.text)

相关文章

网友评论

      本文标题:python基础学习:网络爬虫

      本文链接:https://www.haomeiwen.com/subject/sdninktx.html