美文网首页
Python工具使用举例 网络爬虫

Python工具使用举例 网络爬虫

作者: 威威专栏 | 来源:发表于2018-04-01 10:17 被阅读0次

    Python作为简易上手的编程语言,受到大量应用和追捧,在大数据处理、网络爬虫、图像处理、数据库编程等方面大显其手。比较入门级的应用包含批量下载图片、视频、音频和文字数据。

    以某校网站为例,其图片质量不错,仅为了学习目的,尝试了python批量爬取网站中图片,实测有效,不需要一个一个右键保存,适合大量图片网站内容爬取。

    编程IDE可以下载python 2.7或更新版本,安装后使用GUI或命令符打开。

    首先打开目的网站,右键查看网页源代码,如果是Chrome,也可以F12查阅html代码段,找到图片img src= 的后缀名。

    也可以使用如下简单几行Python代码获取网页Html

    >>> import urllib2

    >>> response = urllib2.urlopen(“目标网址”)

    >>> print response.read()

    然后将爬取图片的后缀名改为实际服务器存储的后缀名,同样适用于其他数据后缀~~

    可以使用IDE运行代码段或CMD运行保存后的py文件。

    爬取结果如下截图:

    如上仅为工具实例,虽然使用好正则表达式,可以获取公开存储的多种数据类型,但是实际对应网站可能会有不同设置,常见错误有不注意coding编码方式,没有header设定等,目前越来越多的网站设置了外网权限设定,需要绕过设定才可以爬取到数据。

    如上图所示,10060代码错误一般意味着网站服务器对于外网的访问策略限制导致,需要设置代理可能绕过去。

    相关文章

      网友评论

          本文标题:Python工具使用举例 网络爬虫

          本文链接:https://www.haomeiwen.com/subject/rpeocftx.html