美文网首页
day2、代理服务器-正则表达式-XPath语法

day2、代理服务器-正则表达式-XPath语法

作者: 是东东 | 来源:发表于2018-08-16 20:43 被阅读0次

    1、代理服务器

    ​ 1、为什么要使用代理服务器?

    ​ 有时候用同一个ip去抓取某个网站时,时间久了就会被该网站屏蔽。此时可以通过代理服务器,去代替我们真实的IP去爬取。

    ​ 2、从哪里能够获取到代理服务器?

    ​ 代理服务器一般是要花钱购买的,如果用于实验也可以用免费的

    http://www.kuaidaili.com/

    http://www.xicidaili.com/

    2、正则表达式

    ​ 元字符【单字符】

    ​ . [and] \d \D \s \S

    ​ 修饰符

    ​ .* + ? {m} {m,n} {m,}

    ​ 边界符

    ​ ^ $ \A \B

    ​ 贪婪模式

    ​ .*

    ​ 非贪婪模式

    ​ .*?

    ​ 模式修正

    ​ re.S 单行

    ​ re.M 多行

    ​ re.I 忽略大小写

    3、XPath语法

    pip install lxml

    层级等位:根据标签的层级关系进行查找

    属性定位:根据属性查找标签

    相关文章

      网友评论

          本文标题:day2、代理服务器-正则表达式-XPath语法

          本文链接:https://www.haomeiwen.com/subject/fbtabftx.html