山东大学-VirtualJudge-总结1

作者: LJCgeorge | 来源:发表于2017-05-14 16:31 被阅读0次

山东大学-VirtualJudge-总结1
山东大学-VirtualJudge-总结4
山东大学-VirtualJudge-总结3
山东大学-VirtualJudge-总结7
山东大学-VirtualJudge-总结9
山东大学-VirtualJudge-总结2
山东大学-VirtualJudge-总结6
山东大学-VirtualJudge-总结5
山东大学-VirtualJudge-总结8
热烈祝贺我司获得“山大创新创业协同育人实践平台”表彰

在这个周根据小组进度安排，我主要学习了Python爬虫的编写，学习主要参考：
python实现简单爬虫功能

根据博客内容，我自己尝试写了自己的爬虫代码：

获取整个页面数据

#coding=utf-8
import urllib.request

def getHtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    return html

html = getHtml("http://tieba.baidu.com/p/2738151262")

print (html)

Urllib 模块提供了读取web页面数据的接口
urllib.request.urlopen()方法用于打开一个URL地址
read()方法用于读取URL上的数据，向getHtml()函数传递一个网址，并把整个页面下载下来，执行程序就会把整个网页打印输出。

筛选页面中想要的数据

首先需要了解正则表达式，这是下一步学习的基础：
Python正则表达式指南

import re
import urllib.request

def getHtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html.decode('utf-8'))
    return imglist      
   
html = getHtml("http://tieba.baidu.com/p/2460150866")
print (getImg(html))

将页面筛选的数据保存到本地

import urllib.request   
import re

def getHtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html.decode('utf-8'))
    x = 0
    for imgurl in imglist:
        urllib.request.urlretrieve(imgurl,'%s.jpg' % x)
        x+=1


html = getHtml("http://tieba.baidu.com/p/2460150866")

print (getImg(html))

这只是我们这一次项目开发的一个开始过程，相信后面会越来越深入，相信自己能够在过程中学到很多Python的知识，真正开发出一个让自己满意的在线评测网站。

网友评论

本文标题：山东大学-VirtualJudge-总结1

本文链接：https://www.haomeiwen.com/subject/vasfxxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

山东大学-VirtualJudge-总结1

获取整个页面数据

筛选页面中想要的数据

将页面筛选的数据保存到本地

相关文章

山东大学-VirtualJudge-总结1

山东大学-VirtualJudge-总结4

山东大学-VirtualJudge-总结3

山东大学-VirtualJudge-总结7

山东大学-VirtualJudge-总结9

山东大学-VirtualJudge-总结2

山东大学-VirtualJudge-总结6

山东大学-VirtualJudge-总结5

山东大学-VirtualJudge-总结8

热烈祝贺我司获得“山大创新创业协同育人实践平台”表彰

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读