美文网首页
1.2解析网页

1.2解析网页

作者: doubleyou1001 | 来源:发表于2016-06-02 08:17 被阅读0次
    • 使用BeautifulSoup解析网页
    Soup = BeautifulSoup(html,'lxml')
    
    • 描述要爬取的东西在哪
    data = Soup.select('???')
    
    • 从标签中获取信息,并装在数据容器中
      CSS Selector和XPath都可以表示网页中元素的位置
      一般采用get_text方法就可以了
    title.get_text()
    

    对于获得标签的属性,采用get 方法

    image.get('src‘)
    

    stripped_strings方法,有效解决多对一的标签,
    获得一个副标签下的所有子标签的文本,由于内容是成组的,所以列表化

    list(cate.stripped_strings)
    

    打开文件有2种方式

    fs = open("文件地址",“r")
    print(fs.read())
    fs.close
    

    支持相对地址和绝对地址,必须调用close()函数,否则内存泄漏

    with open("文件地址","r") as fs:
          print(fs.read())
    

    相关文章

      网友评论

          本文标题:1.2解析网页

          本文链接:https://www.haomeiwen.com/subject/mcpcdttx.html