美文网首页
BeautifulSoup4的基本使用

BeautifulSoup4的基本使用

作者: 三沐子 | 来源:发表于2018-01-25 11:06 被阅读0次

BeautifulSoup4的基本使用

序:BeautifulSoup是python解析html非常好用的第三方库!

安装:

    pip install beautifulsoup4

基本使用:

    from bs4 import BeautifulSoup

    html_str = """
        <ul>
            <li>
                <a href="http://www.baidu.com/">百度一下</a>
            </li>
            <li>合适的话发多少</li>
            <li>
                <a class="baidu" href="http://www.baidu.com/">不会发生看到</a>
            </li>
            <li>
                <a  id="lagou" href="http://www.lagou.com/">lagou</a>
            </li>
            <li>
                <label class="enterText enterArea">列表图预览:</label>
                <p class="enterImg">
                    <img id="previewImage" title='mmm' src="http://www.google.com/logo.png"/>
                </p>
                <div class="Validform_checktip">范德萨范德萨</div>
            </li>
        </ul>
    """

    soup = BeautifulSoup(html_str,'html.parser')

    #html对象  text文本去掉标签
    # print(soup)
    # print(soup.text)


    # <class 'bs4.BeautifulSoup'> 对象类型
    # print(type(soup))

    # 查找a标签 .text打印a的内容
    # print(soup.find('a'))
    # print(soup.find('a').text)

    # 查找a标签 class=baidu的
    # print(soup.find('a',class_='baidu'))

    # 查找id=lagou
    # print(soup.find(id='lagou'))

    # 查找title='mmm' 前边可以写具体找哪个标签
    # print(soup.find(title='mmm'))

    # find_all 找所有  返回一个list 数组类型
    # print(soup.find_all('a'))
    # print(soup.find_all('a')[0]) #第一个
    all_a = soup.find_all('a')
    for item in all_a:
        if item:
            # print(item.attrs)
            print(item.attrs['href']) #dict类型

相关文章

网友评论

      本文标题:BeautifulSoup4的基本使用

      本文链接:https://www.haomeiwen.com/subject/xqzmaxtx.html