美文网首页
python数据收集工具

python数据收集工具

作者: WickJohn | 来源:发表于2020-06-02 16:38 被阅读0次

    一、正则表达式(略)
    二、Xpath表达式基础
    除了正则表达式之外,还有一些非常好用的信息筛选工具,比如XPath表达式、beautifulSoup等等,当然,我们不可能也不需要都进行掌握,在此,我们讲解一下XPath表达式
    /逐层提取
    text() 提取标签下面的文本
    //标签名** 提取所有名为**的标签
    //标签名 [@属性=‘属性值’] 提取属性为XX的标签
    @属性名 代表取某个属性值

    例如:

    <html>
    <head>
    <title>
    主页
    </title>
    </head>
    <body>
    <p>abc</p>
    <p>bbbvb</p>
    <a href="//qd.alibaba.com/go/v/pcdetail" target="_top">安全推荐</a>
    <a href="//qd.alibaba.com/go/v/pcdetail">target="_top">安全推荐</a>
    <div class="J_AsyncDC" data-type="dr">
              <div id="official-remind">明月几时有
    </div>
    </div>
    </body>
    

    分析以下XPath表达式提取的内容:
    /html/head/title/text()
    答案:主页
    //p/text()
    答案:abc
    bbbvb
    //a
    答案:href="//qd.alibaba.com/go/v/pcdetail" target="_top">安全推荐
    href="//qd.alibaba.com/go/v/pcdetail">target="_top">安全推荐
    //div[@id='official-remind']/text()
    答案:明月几时有
    //a/@href
    答案://qd.alibaba.com/go/v/pcdetail
    //qd.alibaba.com/go/v/pcdetail

    实例:
    提取标题:/html/head/title/text()
    提取所有的div标签://div
    提取div中<div class="tools">标签的内容://div[@class='tools']/text()

    相关文章

      网友评论

          本文标题:python数据收集工具

          本文链接:https://www.haomeiwen.com/subject/buiuzhtx.html