BeautifulSoup4的基本使用

序：BeautifulSoup是python解析html非常好用的第三方库！

安装：

    pip install beautifulsoup4

基本使用：

    from bs4 import BeautifulSoup

    html_str = """
        <ul>
            <li>
                <a href="http://www.baidu.com/">百度一下</a>
            </li>
            <li>合适的话发多少</li>
            <li>
                <a class="baidu" href="http://www.baidu.com/">不会发生看到</a>
            </li>
            <li>
                <a  id="lagou" href="http://www.lagou.com/">lagou</a>
            </li>
            <li>
                <label class="enterText enterArea">列表图预览：</label>
                <p class="enterImg">
                    <img id="previewImage" title='mmm' src="http://www.google.com/logo.png"/>
                </p>
                <div class="Validform_checktip">范德萨范德萨</div>
            </li>
        </ul>
    """

    soup = BeautifulSoup(html_str,'html.parser')

    #html对象  text文本去掉标签
    # print(soup)
    # print(soup.text)


    # <class 'bs4.BeautifulSoup'> 对象类型
    # print(type(soup))

    # 查找a标签 .text打印a的内容
    # print(soup.find('a'))
    # print(soup.find('a').text)

    # 查找a标签 class=baidu的
    # print(soup.find('a',class_='baidu'))

    # 查找id=lagou
    # print(soup.find(id='lagou'))

    # 查找title='mmm' 前边可以写具体找哪个标签
    # print(soup.find(title='mmm'))

    # find_all 找所有  返回一个list 数组类型
    # print(soup.find_all('a'))
    # print(soup.find_all('a')[0]) #第一个
    all_a = soup.find_all('a')
    for item in all_a:
        if item:
            # print(item.attrs)
            print(item.attrs['href']) #dict类型