美文网首页python
python学习日记三(简单爬虫)

python学习日记三(简单爬虫)

作者: HaleyLiu | 来源:发表于2017-12-16 17:10 被阅读87次

    一、什么是爬虫
    网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
    简而言之就是自动抓取网页的工具。

    二、urllib的使用
    (1)用urlopen(url, data, timeout)获取网页内容

    发现问题:
    python3

    import urllib.request
    html = urllib.request.urlopen('http://www.google.com').read().decode('utf-8')
    print(html)
    

    python2

    # coding=UTF-8
    import urllib2  #调用urllib2  
    url='http://www.baidu.com/s?wd=cloga' #把等号右边的网址赋值给url
    html=urllib2.urlopen(url).read()   #html随意取名 等号后面的动作是打开源代码页面,并阅读
    print html #打印
    

    python2.6里面必须加# coding=UTF-8否则报未设定字符编码错误,pvm编译都无法通过。
    SyntaxError: Non-ASCII character '\xe8' in file E:\Eclipse_Project\Test\lrq_init_.py on line 2, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

    相关文章

      网友评论

        本文标题:python学习日记三(简单爬虫)

        本文链接:https://www.haomeiwen.com/subject/qnyeyxtx.html