一、什么是爬虫
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
简而言之就是自动抓取网页的工具。
二、urllib的使用
(1)用urlopen(url, data, timeout)获取网页内容
发现问题:
python3
import urllib.request
html = urllib.request.urlopen('http://www.google.com').read().decode('utf-8')
print(html)
python2
# coding=UTF-8
import urllib2 #调用urllib2
url='http://www.baidu.com/s?wd=cloga' #把等号右边的网址赋值给url
html=urllib2.urlopen(url).read() #html随意取名 等号后面的动作是打开源代码页面,并阅读
print html #打印
python2.6里面必须加# coding=UTF-8否则报未设定字符编码错误,pvm编译都无法通过。
SyntaxError: Non-ASCII character '\xe8' in file E:\Eclipse_Project\Test\lrq_init_.py on line 2, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details
网友评论