美文网首页
山东大学-VirtualJudge-总结1

山东大学-VirtualJudge-总结1

作者: LJCgeorge | 来源:发表于2017-05-14 16:31 被阅读0次

    在这个周根据小组进度安排,我主要学习了Python爬虫的编写,学习主要参考:
    python实现简单爬虫功能

    根据博客内容,我自己尝试写了自己的爬虫代码:

    获取整个页面数据

    #coding=utf-8
    import urllib.request
    
    def getHtml(url):
        page = urllib.request.urlopen(url)
        html = page.read()
        return html
    
    html = getHtml("http://tieba.baidu.com/p/2738151262")
    
    print (html)
    

    Urllib 模块提供了读取web页面数据的接口
    urllib.request.urlopen()方法用于打开一个URL地址
    read()方法用于读取URL上的数据,向getHtml()函数传递一个网址,并把整个页面下载下来,执行程序就会把整个网页打印输出。

    筛选页面中想要的数据

    首先需要了解正则表达式,这是下一步学习的基础:
    Python正则表达式指南

    import re
    import urllib.request
    
    def getHtml(url):
        page = urllib.request.urlopen(url)
        html = page.read()
        return html
    
    def getImg(html):
        reg = r'src="(.+?\.jpg)" pic_ext'
        imgre = re.compile(reg)
        imglist = re.findall(imgre,html.decode('utf-8'))
        return imglist      
       
    html = getHtml("http://tieba.baidu.com/p/2460150866")
    print (getImg(html))
    

    将页面筛选的数据保存到本地

    import urllib.request   
    import re
    
    def getHtml(url):
        page = urllib.request.urlopen(url)
        html = page.read()
        return html
    
    def getImg(html):
        reg = r'src="(.+?\.jpg)" pic_ext'
        imgre = re.compile(reg)
        imglist = re.findall(imgre,html.decode('utf-8'))
        x = 0
        for imgurl in imglist:
            urllib.request.urlretrieve(imgurl,'%s.jpg' % x)
            x+=1
    
    
    html = getHtml("http://tieba.baidu.com/p/2460150866")
    
    print (getImg(html))
    

    这只是我们这一次项目开发的一个开始过程,相信后面会越来越深入,相信自己能够在过程中学到很多Python的知识,真正开发出一个让自己满意的在线评测网站。

    相关文章

      网友评论

          本文标题:山东大学-VirtualJudge-总结1

          本文链接:https://www.haomeiwen.com/subject/vasfxxtx.html