美文网首页
(2019-03-20)requests+beautifulso

(2019-03-20)requests+beautifulso

作者: spiderzzZ | 来源:发表于2019-03-20 17:06 被阅读0次

    #requests http库用于获取网页内容

    #beautifulsoup  解析库,用于解析网页内容,此外,还有正则表达式  也可以解析网页内容

    #正则表达式使用re库

    #我就选择beautifulsoup库,太多了选则不过来。

    #beautifulsoup,是个解析库,需要使用到解析器,如:html.parser、lxml

    #而lxml解析器比较好用,就选  beautifulsoup+lxml

    #使用方法:soup = Beautifulsoup(html,'lxml')

    #print(soup.p.string)

    一、想要爬取节点比较简单,即class=star的p节点,想要获得该节点内容,而不含有<p>节点标志。

    1.爬取网页格式是tag即标签格式,如果使用find_all命令得到的是列表格式,此时想要获得文本内容不能用“.string”,报错如下:AttributeError: ResultSet object has no attribute 'string'. You're probably treating a list of items like a single item. Did you call find_all() when you meant to call find()?

    2.所以想要获取节点内容需要在该列表中使用for函数,在依次得到节点.string,如下:

    actors = soup.find_all("p",class_='star')

    for name in actors:

        print(name.string)

    结果如下:

    相关文章

      网友评论

          本文标题:(2019-03-20)requests+beautifulso

          本文链接:https://www.haomeiwen.com/subject/xrjtvqtx.html