1、代理服务器
1、为什么要使用代理服务器?
有时候用同一个ip去抓取某个网站时,时间久了就会被该网站屏蔽。此时可以通过代理服务器,去代替我们真实的IP去爬取。
2、从哪里能够获取到代理服务器?
代理服务器一般是要花钱购买的,如果用于实验也可以用免费的
2、正则表达式
元字符【单字符】
. [and] \d \D \s \S
修饰符
.* + ? {m} {m,n} {m,}
边界符
^ $ \A \B
贪婪模式
.*
非贪婪模式
.*?
模式修正
re.S 单行
re.M 多行
re.I 忽略大小写
3、XPath语法
pip install lxml
层级等位:根据标签的层级关系进行查找
属性定位:根据属性查找标签
网友评论