Hello World 级别爬虫教程

作者: 喝醉酒的咖喱鸡 | 来源:发表于2018-09-18 21:15 被阅读57次

前言

俗话说得好 “ 万事开头难”。小码哥学习爬虫的道路非常曲折。有多曲折？如同山路十八弯那样(一把辛酸泪) 。
作为过来人，小码哥非常清楚并理解大家的需求。所以本教程不会一上来就介绍一堆很复杂的概念。
小码哥保证：只要识字，就一定能教会你写出你第一只爬虫。
好了，废话不多说，咱们直接进入正题。

对象

写爬虫前，我们首先要明确对象是谁。连对象都没有，你还写什么爬虫？(无意中伤单身狗)这次小码哥将带着大家爬豆瓣电影。

说明

Python版本: 2.7
所用到的库: urllib2、json、bs4
编辑器: 小码哥推荐大家使用Sublime Text 2

爬虫之旅

第一步新建文件并导入相关库

打开Sublime Text 2 ，新建一个.py文件，文件名随意。在编辑器中敲入以下代码，导入所需要的库。

import urllib2
import json
from bs4 import BeautifulSoup

第二步定义标签变量及URL变量

标签变量：存储电影标签，如 " 热门 " 、" 华语 "、" 喜剧 " 等。
URL变量：存储对象地址

tags = []
url = 'https://movie.douban.com/j/search_tags?type=movie&source='

第三步爬取标签

直白的说这一步就是告诉豆瓣电影，我们要爬取它，让它乖乖的把我们想要的东西交出来。

request = urllib2.Request(url=url)
response = urllib2.urlopen(request, timeout=20)
result = json.loads(response.read())
tags = result['tags']

第四步爬取电影详情

这一步很第三部类似，不过这一步多了一个判断。为什么呢？因为标签数量是固定的，而每一个标签下的电影数量是不同的。我们需要让爬虫知道：

每个标签下的电影爬到哪里就代表全部爬完了
爬完一个标签后换继续爬取下一个标签下的电影
爬到哪里就意味着所以标签下的电影已经全部爬取完了

movies = []
for tag in tags:
    limit = 0
    while 1:
        url = 'https://movie.douban.com/j/search_subjects?type=movie&tag=' + \
            tag + '&sort=recommend&page_limit=20&page_start=' + str(limit)
        print url
        request = urllib2.Request(url=url)
        response = urllib2.urlopen(request, timeout=20)
        result = json.loads(response.read())

        result = result['subjects']
        # 当result为空时 说明这个标签已经爬取完了
        # 换下一个标签继续
        if len(result) == 0:
            break
        limit += 20

        for items in result:
            movies.append(items)

第五步保存结果，写入文件

这一步就是将我们爬取下来的电影数据保存到一个文本文件中，便于我们后期使用。

fw = open('hh.txt', 'w')
for item in movies:
    tmp = ''
    for key, value in item.items():
        tmp += str(value) + ','
    fw.write(tmp[:-1]+'\n')

fw.close()

第六步保存代码，并执行

这一步就是将我们写好的代码保存，然后执行。代码运行结束后就可以在同路径下看到一个 "movies.txt" 文件，这就是我们爬取的电影数据。

后记

至此，本篇教程就结束了。在本篇教程中小码哥没有对相关知识进行解释，而是直接上代码，让大家复制、粘贴。小码哥这么做只是为了激发大家的学习兴趣，便于后期更深入的学习爬虫知识。
如果大家对本教程里面相关内容有疑惑可以写在评论里，小码哥看到后会第一时间回复。
若大家觉得本教程还不错，麻烦在右下角给小码哥点个喜欢，鼓励小码哥继续创作！

网友评论

本文标题：Hello World 级别爬虫教程

本文链接：https://www.haomeiwen.com/subject/dwgmnftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Hello World 级别爬虫教程

前言

对象

说明

爬虫之旅

第一步新建文件并导入相关库

第二步定义标签变量及URL变量

第三步爬取标签

第四步爬取电影详情

第五步保存结果，写入文件

第六步保存代码，并执行

后记

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Hello World 级别爬虫教程

前言

对象

说明

爬虫之旅

第一步 新建文件并导入相关库

第二步 定义标签变量及URL变量

第三步 爬取标签

第四步 爬取电影详情

第五步 保存结果，写入文件

第六步 保存代码，并执行

后记

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

第一步新建文件并导入相关库

第二步定义标签变量及URL变量

第三步爬取标签

第四步爬取电影详情

第五步保存结果，写入文件

第六步保存代码，并执行