python: bs4 sample

作者: luffynoonepiece | 来源:发表于2020-06-29 15:24 被阅读0次
    真香

    作为一个资料工程师,采集网页数据也是工作中的一部分,BeautifulSoup + requests + regex 可以帮助我们简单地准确定位获取网页源代码中想要的内容。

    1.安装bs4

    首先win + r打开命令,输入cmd命令,安装bs4:

    
    pip install bs4
    
    or
    
    python -m pip install bs4
    
    

    2.导入模块

    程序员的事,不能叫抄,叫import
    
    # -*- coding:utf-8 -*-
    
    from bs4 import BeautifulSoup
    
    import requests
    
    #regex
    
    import re
    
    

    3.简单例子(从网页源代码中根据tag找到标题)

    
    url = 'https://baike.baidu.com/item/Python'
    
    resp = requests.get(url)
    
    #查看连接状态码(200为正常)
    
    print(resp.status_code)
    
    #requests自带chardet的编码检测
    
    resp.encoding = resp.apparent_encoding
    
    #打印网页源代码
    
    #print(resp.text)
    
    #定义一个BeautifulSoup对象
    
    soup = BeautifulSoup(resp.text,'lxml')
    
    #find_all返回list,find返回字串
    
    f = soup.find_all("title")
    
    #将结果存入新建的txt中
    
    with open(".//Label.txt",'w',encoding = 'utf-8') as s:
    
        print(f,file = s)
    
    蟹蟹

    相关文章

      网友评论

        本文标题:python: bs4 sample

        本文链接:https://www.haomeiwen.com/subject/eyeazhtx.html