美文网首页Python爬虫作业
2017/06/06 第一次爬取数据

2017/06/06 第一次爬取数据

作者: starCoder | 来源:发表于2017-06-06 13:11 被阅读98次

    简单爬取松花江新闻网新闻[http://www.shjnet.cn/ms/msxw/]

    1、先分析网页的源码查看要爬取的内容在什么位置
    2、分析html取到想要的内容


    1、 查看源码

    image.png
    发现我们要的数据在<h4 标签下

    2、通过编码通过requests获取网页源码

    html = requests.get(url).content
    

    然后通过BeautifulSoup找到我们想要的标签

    links = soup.find_all('h4', class_='blank')
    

    这样就爬取到新闻列表的数据

    3、接下来通过列表爬取到的url去获取详情的内容,方法同上面一样


    直接贴源码:

    #!/usr/bin/env python
    # coding:utf8
    import sys
    
    import requests
    from bs4 import BeautifulSoup
    
    reload(sys)
    sys.setdefaultencoding("utf8")
    
    url = 'http://www.shjnet.cn/ms/msxw/index.html'
    
    
    def getNewsList(url, page=0):
        if (page != 0):
            url = 'http://www.shjnet.cn/ms/msxw/index_%s.html' % page
        html = requests.get(url).content
        soup = BeautifulSoup(html, 'lxml')
        links = soup.find_all('h4', class_='blank')
        for link in links:
            detailUrl = "http://www.shjnet.cn/ms/msxw/" + link.a.get('href').replace('./', '')
            print "-------------------------"
            print "新闻标题:" + link.a.get_text() + "  详情地址:" + detailUrl
            getNewsDetail(detailUrl)
        page = int(page) + 1
        print soup.select('#pagenav_%s' % page)
        if (soup.select('#pagenav_%s' % page)):
            print u'开始抓取下一页'
            print 'the %s page' % page
            getNewsList(url, page)
    
    
    def getNewsDetail(detailUrl):
        html = requests.get(detailUrl).content
        soup = BeautifulSoup(html, 'lxml')
        links = soup.find_all('div', class_='col-md-9')
        for link in links:
            # print link.span.get_text()
            # print link.h2.get_text()
            # print link.find('div', class_='cas_content').get_text()
            if (link.find('div', class_='col-md-10').select('img')):
                imgs = link.find('div', class_='col-md-10').find_all('img')
                for img in imgs:
                    print "图片:" + detailUrl[:detailUrl.rfind('/')] + "/" + img.get('src').replace('./', '')
    
    
    if __name__ == '__main__':
        getNewsList(url)
    

    效果:


    image.png
    本文使用的python为2.7
    爬取中遇见的问题
    • 打印 html = requests.get(url).text乱码
      咨询了小分队群里的同学们,得到解答。
      .text返回的是Unicode型数据。
      .content 返回的是bytes型也就是二进制的数据
      然后把html = requests.get(url).content解决乱码问题
    • 拼接详情url时,去掉./ 多余的字符串
      link.a.get('href').replace('./', '')
    • 获取详情内容时报错
    image.png
    原因是需要添加http://开头
    • 第一次使用BeautifulSoup 查看了向右老大的简书了解使用方法
    find_all("tag") 搜索当前所有的tag标签的集合。
    find("tag") 返回的是一个tag标签。(这个方法用得少)
    select("") 可以按标签名查找,用得多的是按标签逐层查找筛选元素。
    获取 >内容< 内容使用.get_text()
    获取<href 内容 > 内容使用.get('href')

    目前暂时在控制台打印内容 ☺

    相关文章

      网友评论

        本文标题:2017/06/06 第一次爬取数据

        本文链接:https://www.haomeiwen.com/subject/oymgfxtx.html