「爬虫」01网络爬虫基础知识

「爬虫」01网络爬虫基础知识

作者: 林拂晓 | 来源:发表于2020-01-04 18:32 被阅读0次

Java爬虫高级教程
1-基本概念
2018-01-11 Python网络爬虫与信息提取网络爬虫
2018-07-25 爬虫基础
[Python网络爬虫]第1章网络爬虫入门
Python网络爬虫实战之十四：Scrapy结合scrapy-s
Python网络爬虫实战之七：动态网页爬取案例实战 Seleni
Python网络爬虫实战之八：动态网页爬取案例实战 Seleni
Python网络爬虫实战之九：Selenium进阶操作与爬取京东
Python网络爬虫实战之十一：Scrapy爬虫框架入门介绍

1.网络爬虫：自动从互联网中定向（有目标、过滤无关信息）或不定向（随机）地采集信息的一种程序。常用的类型有：通用网络爬虫（不定向）、聚焦网络爬虫（定向设置过滤规则）。

2.网络爬虫的应用：①搜索引擎②采集金融数据③采集商品数据④自动过滤广告⑤采集竞争对手的客户数据⑥采集行业相关数据，进行数据分析......

3.网络爬虫的运行原理

（1）通用网络爬虫：

①获取初始URL；②爬取页面并获取新的URL;③将爬取的内容放到服务器中，将新URL放入URL队列；④读取新URL，重复②③④；⑤直到满足停止条件结束。

（2）聚焦网络爬虫：

①对抓取目标进行相应的定义或描述；②获取初始URL；③爬取页面并获得新的URL；④将爬取的内容放到服务器中，过滤无关链接后，将新URL放入URL队列中；⑤确定下一步抓取目标，重复①②③④⑤；⑥直到满足停止条件结束。

4.正则表达式

（1）原子：是正则表达式中最基本的组成单位，每个正则表达式中至少要包含一个原子。常见的原子类型有：

①普通字符

原子-普通字符

②非打印字符

原子-非打印字符

③通用字符

\w匹配任意字母、数字、下划线

【\W匹配除了字母、数字、下划线以外的任意其它字符】

\d 匹配任意十进制数

【\D匹配除了十进制数以外的任意其它字符】

\s 匹配空白字符

【\S匹配除了空白字符以外的任意其它字符】

原子-通用字符

④原子表

原子-原子表

【注】①[jsz]表示三个字母处于平等地位，能够匹配的前提是保证pyth和n中间存在且只能存在j、s、z中任意一个。

②[^j] ^放在原子表中表示非，不是j的其它的原子。

（2）元字符

. 匹配任意字符

^ 匹配字符串开始的位置

$ 匹配字符串结束的位置

* 匹配重复0次、1次或者多次的位置

？匹配重复0次或者1次的位置

+ 匹配重复1次或多次的位置

t{n} 原子t恰好出现了n次

t{n，} 原子t至少出现了n次

t{n，m} 原子t至少出现n次且至多出现m次（n<=t<=m）

t|s 模式选择符，t或者s

() 模式单元，用于提取某一内容

元字符

（3）模式修正符

I 忽略大小写

M 多行匹配

L 本地化识别匹配

U 根据unique字符解析字符

S 让.也能匹配换行符

模式修正符

（4）①贪婪模式：尽可能多的匹配。

②懒惰模式：尽可能少的匹配。

两种匹配模式

（5）正则表达式函数

①re.match()函数②re.search()函数

re.match()从头匹配；re.search()从左向右匹配，不在意字符串出现位置。

re.match()函数和re.search()函数的对比

③全局匹配函数re.compile(pat).findall(string)

全局匹配函数

④re.sub()函数

replace()函数和re.sub()函数的对比

（6）匹配.com、.cn

匹配.com或.cn

相关文章

Java爬虫高级教程
作为网络爬虫的入门采用Java开发语言，内容涵盖了网络爬虫的原理以及开发逻辑，Java网络爬虫基础知识，网络抓包介...
1-基本概念
简介为什么选择Python做爬虫需要技能爬虫与反爬虫网络爬虫类型通用网络爬虫聚焦网络爬虫增量式网络爬...
2018-01-11 Python网络爬虫与信息提取网络爬虫
1、网络爬虫 1.1 网络爬虫的尺寸网络爬虫的尺寸 1.2 网络爬虫的“骚扰”网络爬虫速度快（但是服务器是按照人数...
2018-07-25 爬虫基础
今天我们主要学习了有关爬虫的基础教程。爬虫是用于抓取网络上的数据，因此，首先必须了解有关于网络协议的基础知识。...
[Python网络爬虫]第1章网络爬虫入门
要点介绍网络爬虫的基础部分学习网络爬虫的原因网络爬虫带来的价值网络爬虫是否合法网络爬虫的基本议题和框架 1.1 ...
Python网络爬虫实战之十四：Scrapy结合scrapy-s
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...
Python网络爬虫实战之七：动态网页爬取案例实战 Seleni
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...
Python网络爬虫实战之八：动态网页爬取案例实战 Seleni
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...
Python网络爬虫实战之九：Selenium进阶操作与爬取京东
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...
Python网络爬虫实战之十一：Scrapy爬虫框架入门介绍
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...

网友评论

本文标题：「爬虫」01网络爬虫基础知识

本文链接：https://www.haomeiwen.com/subject/cwlfactx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|「爬虫」01网络爬虫基础知识|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！