Python写爬虫

Python写爬虫

作者: 齐滇大圣 | 来源:发表于2016-04-07 16:40 被阅读379次

python爬虫——scrapy框架总结
iOS程序员如何使用python写网路爬虫（一点更新）
分布式爬虫| 你必须得懂的那些Redis基础
ubuntu 16.04 安装 Scrapy
7个Python爬虫实战项目教程
Python网络爬虫一
用Python写爬虫
3分钟带你了解世界第一语言Python 入门上手也这么简单！
Python爬虫有什么用？容易学吗？
解决《用Python写网络爬虫》中示例网站访问不了的问题

环境准备

我个人使用的是mac，mac预装的python环境是python2.x。
查看python版本：在终端（Terminal）中输入“python”。

安装pip:

下载地址:https://pypi.python.org/pypi/pip
解压,安装:
<code>sudo python setup.py install</code>

安装BeautifulSoup:

<code>pip install BeautifulSoup</code>
Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。

编码运行

抓取该网站图片：http://www.win4000.com/meinvtag34.html
创建search.py文件并编写对应代码
代码：
#!/usr/bin/python
#-- coding: utf-8 --
#encoding=utf-8

import urllib2
import urllib
import os
from BeautifulSoup import BeautifulSoup

def getAllImageLink():
    html = urllib2.urlopen('http://www.win4000.com/meinvtag34.html').read()
    soup = BeautifulSoup(html)

    liResult = soup.findAll('li',attrs={"class":"box"})
    numberIndex = 0
    for li in liResult:
        imageEntityArray = li.findAll('img')
        for image in imageEntityArray:
            link = image.get('src')
            imageName = 'image' + str(numberIndex)
            numberIndex = numberIndex + 1
            filesavepath = '/Users/YMY/Desktop/imageUrl/%s.jpg' % imageName
            urllib.urlretrieve(link,filesavepath)
            print filesavepath

if __name__ == '__main__':
    getAllImageLink()

终端运行：

python search.py

最后就会在对应的文件夹中生成爬下来的图片。

需要学习

有些网页的抓取可能没那么简单，不同的网站规则都是不一样的。这时候就需要我们学会怎么去遍历，怎么找到我们需要的元素。Beautiful Soup里还有很多对应的方法需要学习，这里放上一份Beautiful Soup 4.2.0 文档为以后学习使用。

参考

iOS程序员如何使用python写网路爬虫

相关文章

python爬虫——scrapy框架总结
Scrapy是用python写的一个爬虫框架，当然如果只是写一些简单爬虫，python自己就有做爬虫的库，scra...
iOS程序员如何使用python写网路爬虫（一点更新）
原文链接： iOS程序员如何使用python写网路爬虫以前看到叶孤城写的iOS程序员如何使用python写网路爬虫...
分布式爬虫| 你必须得懂的那些Redis基础
Python分布式爬虫|不会分布式爬虫？带你一步一步写！ Python分布式爬虫—必须掌握的Docker基础...
ubuntu 16.04 安装 Scrapy
写爬虫首选Python，Python爬虫框架首选Scrapy。-- 沃滋基索德 Scrapy官网在醒目的地方告...
7个Python爬虫实战项目教程
有很多小伙伴在开始学习Python的时候，都特别期待能用Python写一个爬虫脚本，实验楼上有不少python爬虫...
Python网络爬虫一
前言很多人学习Python就是为了写爬虫的，给大家的印象就是Python=爬虫，既然如此，那我们也从最简单的爬虫...
用Python写爬虫
Python Crawler learning 参考书：用Python写网络爬虫书上的例子采用的是Python ...
3分钟带你了解世界第一语言Python 入门上手也这么简单！
一、Python入门 1. Python爬虫入门一之综述 Python爬虫入门二之爬虫基础了解 Python爬虫入...
Python爬虫有什么用？容易学吗？
在爬虫领域，Python几乎是霸主地位，虽然C++、Java、GO等编程语言也可以写爬虫，但Python更具优势，...
解决《用Python写网络爬虫》中示例网站访问不了的问题
最近在看《用Python写网络爬虫》这本书学习网络爬虫知识，个人感觉从书中使用Python2我个人使用Python...

网友评论

本文标题：Python写爬虫

本文链接：https://www.haomeiwen.com/subject/ahimlttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Python写爬虫|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！