python爬虫—豆瓣250—对上周末爬虫总结，记录遇到的问题以

作者: DKider | 来源:发表于2019-03-17 16:52 被阅读26次

python爬虫—豆瓣250—对上周末爬虫总结，记录遇到的问题以
Python学习
Python爬虫-豆瓣电影Top250-各项信息爬取及xls保存
Python学习
用Xpath爬取豆瓣音乐top250遇到的问题
豆瓣爬虫实践-python版
转:python抓取百度贴吧实例
练习：豆瓣电影TOP250爬虫
用Python分析豆瓣电影TOP250
Python第三天（spider_豆瓣）

今天的文比较长：加代码一共8296字，不算代码一共：3746.
阅读时间较长，内容仅做参考，
之前看了不少大厂对实习生的招聘要求，对python实习生的要求中都要求要有爬虫编写的经验，这两周的爬虫项目让我学到了很多，所以不论是为了入门，还是为了提高，写写小型的项目总是很有用的。
希望用到的技能：

爬虫基础知识
BeautifulSoup的使用
多进程
操作数据库
使用队列
文件操作
MATLAB画图统计，实现数据可视化
下载图片
正则表达式
使用代理池、防止封锁
克服反爬机制等

在写爬虫之前我是希望用到这些知识的，有些我了解，有些没接触过，加粗的是这次用到的，下面来一步一步开始我们的爬虫，我会随时介绍我在编写的时候遇到的问题。
先来看下成果：

image.png

还有数据库，我用的数据可视化工具Navicat：

image.png

很多爬虫教程都是在爬妹子图、美女图、啥啥图，这些对身体不好。不过我也帮室友爬过他们感兴趣的网站，就是那个解数学题的那个。我们正经一点！

首先豆瓣网站对与爬虫工程还是十分友好的，在写爬虫之前，我们先来看一下这个网站的robots.txt文件:https://movie.douban.com/robots.txt

User-agent: *
Disallow: /subject_search
Disallow: /amazon_search
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /forum/
Disallow: /new_subject
Disallow: /service/iframe
Disallow: /j/
Disallow: /link2/
Disallow: /recommend/
Disallow: /doubanapp/card
Sitemap: https://www.douban.com/sitemap_index.xml
Sitemap: https://www.douban.com/sitemap_updated_index.xml
# Crawl-delay: 5

User-agent: Wandoujia Spider
Disallow: /

从这份文件中，我们可以看到：User-agent: *，这是指的所有的爬虫，它下面的Disallow后面的所有的文件夹都不允许爬。# Crawl-delay: 5这是说的是爬虫的延时，不能太快，不然会增加豆瓣服务器的负担。我们为了学习当然是不会故意为难人家的服务器。
User-agent: Wandoujia Spider
Disallow: /这两句就有意思了，豌豆荚的爬虫是不允许爬所有的文件的。

当然上面说的所有的规定都只是规定，你如果非要爬，那也不是做不到，但是没有必要。我们没必要跟别人作对，如果你真的爬到了什么不该知道的东西，那你可能就凉了。爬虫礼仪还是很重要的！

所以我们先去看了我们需要的内容在哪个文件夹下：
250电影列表：https://movie.douban.com/top250——/top250/
电影详细信息：https://movie.douban.com/subject/1292052/——/subject/
电影海报：https://movie.douban.com/photos/photo/480747492/——/photos/

这三个目录在上面的robotsx.txt文件是没有禁止的，所以可以爬取，但是delay是要求5秒。
。。。。。。这有点长了，那理想情况：5250=1250s,在加上30张海报，530*250=37500s,这得猴年马月？？所以我都设置为了1s，而且中间加上了一些BeautifulSoup的处理时间，差不多了。

robots.txt看完了，接下来就是应该分析我们需要哪些步骤来完成整个项目，说实话，这个项目不算大，但是也不小，算是目前我写过的最大的爬虫了。。。。

看一下首页：

top250首页

页面地址非常简单。这是第一页，每一部电影的排名，电影名称等信息都是以一个长方形的item展示在页面上

在首页的下面可以清楚的看到每一页25部电影，一共10页，一共250个items。非常规范，这对我们编写爬虫是非常有利的。

第一页

每部电影的详情页的地址非常清晰，页面上的信息也非常丰富，基本上这一页能看到的东西，我都想拿下来。

详情页

再来看一下海报的地址，浏览器直接点击电影封面就行：

海报

可以发现一部的电影的照片还是不少的，No.1就有535张，全部爬下来都行，但是没有必要，所以我们就取30张海报就行。

好了，我们在浏览器里用眼睛看到了我们想要的东西，电影信息，电影海报，这是我们需要的。

网站的结构是这样的

排行榜——10页

详情页面——一页

海报页面——有多页（只取30张）

所以根据网页结构，以及我们需要的数据内容，可以将获取信息的步骤分为：

步骤：

爬取10页排行榜地址
爬取所有250部电影详情页地址
处理每一部电影
3.1 爬取详情页
3.1 清洗数据
3.2 存储数据
3.3 爬取电影海报页面的30张海报的地址
3.4 下载海报

函数式编程：
大概的步骤是这样的，因此我们就可以先写出main函数：

def main():
    #1. 爬取10页排行榜地址
    ten_url=get_ten_page_url()
    #2. 爬取所有250部电影详情页地址
    movie250infos_url=get_250movie_info_url(ten_url)
    #3. 处理每一部电影
    for i in movie250infos_url:
        #3.1  爬取详情页
        info=get_info(i)
        #3.1  清洗数据
        info=configue_info(info)
        #3.2  存储数据
        save_info(info)
        #3.3  爬取电影海报页面的30张海报的地址
        img=get_img(info)
        #3.4 下载海报
        save_img(img)

接下来只要完成每一个函数的功能即可：

1. 爬取10页排行榜地址

有10页，所以现在来看一下下一页的地址是怎样的：

image.png
可以看出，https://movie.douban.com/top250?start=25&filter=
这地址还是非常清楚的，start=25，filter=。这意思就是是从第25号开始，过滤器值为空。
这里就有问题了，那第一页的地址和第二页的地址结构是不一样的，而且明明第一页有25部电影，他为什么是start=25？？，这对学编程的人来说，显而易见，我们数数是从0开始的，第一部0，第二部是1，第三部是2....,以此类推，所以我带着好奇心试了这个地址：https://movie.douban.com/top250?start=0&filter=

image.png

哈哈。跟之前的/top250/显示的是一样的。那么filter=是什么意思呢？
可以看到第一部电影的item的右上角，有一个我没看过的选项，这应该就是需要过滤的东西，但是这里对我们没有影响，所以我们可以很容易的得到全部10页排行榜的地址：

#获得10页包含250个简介的页面地址 
def get_ten_pageurl():
    #array=["https://movie.douban.com/top250?start=0&filter="]
    array=[]
    for i in range(0,250,25):
        array.append("https://movie.douban.com/top250?start="+str(i)+"&filter=")
    return array

这里可以发现，#array=["https://movie.douban.com/top250?start=0&filter="]这一句是我用来测试代码用的。因为，一共10页，你在后面试运行时，不可能每次都从头开始，这样会浪费很多时间。你可以像我一样，将一些需要循环的处理的列表设置成只有一个值，这样就不会等到先处理完10页链接，在执行你需要的地方。这是一个调试的好方法，但是在最后的时候，你要把他注释掉，别忘记了。

这里我们是非常幸运的，并没有遇到用ajax来换页的情况，在之前我爬取拉勾网时，就遇到了，下一页的地址和上一页的地址是一样的，他是通过ajax动态交互技术实现的，所以获取下一页的地址就成了问题。当然解决它也是很容易的，等下次写爬虫我在详细介绍ajax页面的爬取。

2. 爬取所有250部电影详情页地址

前面的10页的地址的获取不算是爬虫，只能算是一个简单的for循环。下面我们来看一看如何爬取250部电影的详情页地址：
先来看一看网页的代码，分析下结构，打开我们要爬取的页面按F12，或者直接在items上右键->检查元素：

image.png

就会出现下面的情况：

image.png
可以看到直接找到了我们需要的地址。
当然，如果你按的F12，出来的不是这样的，你需要点击元素
然后点击这个

image.png

然后将鼠标移到电影信息上，单击。就会出来一样的东西。

然后我们来看一下我们需要的详情页的地址在哪个位置：

image.png

可以看出，整个页面是用

<ol>
<li><\li>
<li><\li>
<li><\li>
<li><\li>
<li><\li>
<\ol>

这样的结构，每一个<li>标签里包含一个div标签，里面又有pic和info两个标签

image.png

展开里面的全部标签，可以看出这里包含了我们需要的大部分信息，但是还不够，我们需要像详情页里那样详细的信息，不过，这里的信息我们页可以保存一部分。这里我只拿了排名、电影名、电影详情页地址，这三个信息。观察html文件可以发现，这三个信息都在class="pic"的a标签里，所以只要取这一小段就行，然后获取信息就行。利用BeautifulSoup将页面上的25部电影的信息筛选出来，然后for循环处理，提取信息保存。

# 得到每一个电影的详情页地址     
def get_250movie_page_url(ten_pageurl,Directory):
    """
    输入10页地址
    将top250 的电影首页地址保存下来，同时存到队列中和本地text
    """
    if not os.path.exists(Directory):
        os.makedirs(Directory)
    url_queue=MyQueue()
    conn = mysql.connector.connect(user='root', password='password', database='douban250')
    cursor = conn.cursor()
    conn.commit()
    for page_url in ten_pageurl:
        try:
            html = urlopen(page_url)
            bsobj = BeautifulSoup(html, features="html.parser")
            # 得到当前页面上25个包含序号、详情页的地址的div标签，存为列表
            movie_info_items = bsobj.findAll("div", {"class": "pic"})
            for movie_info in movie_info_items:
                try:
                    movie_id = int(movie_info.find("em").get_text())
                    movie_info_url = movie_info.find("a").attrs["href"]
                    movie_name=movie_info.find("img").attrs["alt"]
                    url_queue.push(movie_info_url)

                    with open(Directory + "/250homepage_url.txt", "a") as f:
                        f.write(str(movie_id))
                        f.write("\t")
                        f.write(movie_name)
                        f.write("\t")
                        f.write(movie_info_url)
                        f.write("\n")
                    print("获取movie%s详情页url成功"%(movie_id))
                    cursor.execute('insert into movie_250url '
                                   '(id, name,url) '
                                   'values (%s, %s,%s)',
                                   [movie_id, movie_name, movie_info_url])
                    conn.commit()
                except:
                    print("获取movie详情页url失败！")
                    #continue
            time.sleep(2)
        except:
            print("页面%s处理失败"%(page_url))
            time.sleep(1)
            continue
    cursor.close()
    return url_queue

可以发现这个函数很长，因为这里包含了很多操作。这里我将250个信息存在了队列里，因为，我不打算使用多线程了。存在队列里，队列先进先出，没毛病。然后用了os新建文件夹。用了数据库，将排名、电影名、地址存为一张数据表。用了txt文件读写，将这些信息保存在了txt文本中。用了try。。。except。。。语句错误调试，以防突发问题，从而不影响整个程序。用了time模块，爬虫间隔2s。最后返回一个队列。

可以发现我用的是urllib的urlopen，而不是requests的get。这个问题以及BeautifulSoup的使用我以后会单独拿出来写。

3. 处理每一部电影

得到了250个页面的地址，都存在队列里。接下来处理他们。

3.1 爬取详情页

我直接将队列的头元素传入函数，获取页面，并新建为一个BeautifulSoup对象返回

#获取详情页
def get_movie_info(url):
    try:
        html = urlopen(url)
        bsobj = BeautifulSoup(html, features="html.parser")
        print("获取详情页面成功",url[-8:])
        time.sleep(1)
        return bsobj
    except:
        print("详情页面%s获取失败"%(url[-8:]))
        time.sleep(1)
        return None

bsobj = BeautifulSoup(html, features="html.parser")这我现在还不太清楚，这是运行时加的——features="html.parser"，没细看。但是不加会给个警告warning。

3.1 清洗数据

得到了bs对象，接下来就是处理他了。
详情页的结构比前面的250电影的结构要复杂很多，这里花了我不少时间，到现在还有三个没有解决：制片国家、语言、电影别名。这三个的html的结构有点奇怪。而且BeautifulSoup处理信息的速度并不快，所以就没管它了，等下次将BeautifulSoup、xpath等工具时在来处理这个问题，这里我将他们作为一个列表反回了，方便后面的处理。

#处理详情页
def configure_infopage(bsobj):
    try:
        #电影排名：
        movie_id=bsobj.find("span", {"class": "top250-no"}).get_text()
        # 得到当前页面上的电影名称
        movie_name = bsobj.find("span", {"property": "v:itemreviewed"}).get_text()
        #电影简介
        movie_intro=bsobj.find("span",{"property":"v:summary"}).get_text().replace("\n                                    \u3000\u3000","").replace("                                　　","")
        #获取电影海报页面链接
        movie_photos=bsobj.find("a",{"class":"nbgnbg"}).attrs["href"]
        #电影详细信息左
        movie_info_items=bsobj.find("div",{"id":"info"})
        #处理电影详细信息
        #导演: 弗兰克·德拉邦特
        movie_directer = movie_info_items.find("a", {"rel": "v:directedBy"}).get_text()
        #编剧: 弗兰克·德拉邦特 / 斯蒂芬·金
        movie_attrs =movie_info_items.find_all("a",{"href":re.compile("/celebrity"),})[0].get_text()+"|"+ \
                     movie_info_items.find_all("a", {"href": re.compile("/celebrity"), })[1].get_text()
        #主演: 蒂姆·罗宾斯 / 摩根·弗里曼 / 鲍勃·冈顿 / 威廉姆·赛德勒 / 克兰西·布朗 / 吉尔·贝罗斯 / 马克·罗斯顿 / 詹姆斯·惠特摩 / 杰弗里·德曼 / 拉里·布兰登伯格 / 尼尔·吉恩托利 / 布赖恩·利比 / 大卫·普罗瓦尔 / 约瑟夫·劳格诺 / 祖德·塞克利拉 / 保罗·麦克兰尼 / 芮妮·布莱恩 / 阿方索·弗里曼 / V·J·福斯特 / 弗兰克·梅德拉诺 / 马克·迈尔斯 / 尼尔·萨默斯 / 耐德·巴拉米 / 布赖恩·戴拉特 / 唐·麦克马纳斯
        # 取前3
        movie_actors=""
        for i in movie_info_items.find_all("a",{"rel":"v:starring"})[:5]:
            movie_actors=movie_actors+i.get_text()
        #类型: 剧情 / 犯罪
        movie_genre=movie_info_items.find_all("span",{"property":"v:genre"})[0].get_text()+"|"+ \
                    movie_info_items.find_all("span", {"property": "v:genre"})[1].get_text()
        #制片国家/地区: 美国
        movie_saition=None
        #语言: 英语
        movie_language=None
        #上映日期: 1994-09-10(多伦多电影节) / 1994-10-14(美国)
        movie_initialReleaseDate =""
        for i in movie_info_items.find_all("span", {"property": "v:initialReleaseDate"}):
            movie_initialReleaseDate=movie_initialReleaseDate+i.get_text()
        #片长: 142分钟
        movie_Runtime=movie_info_items.find("span",{"property":"v:runtime"}).get_text()
        #又名: 月黑高飞(港) / 刺激1995(台) / 地狱诺言 / 铁窗岁月 / 消香克的救赎
        movie_alias=None
        #IMDb链接: tt0111161
        movie_IMDb_url=movie_info_items.find("a",{"rel":"nofollow"}).attrs["href"]
        #电影评分信息
        movie_votes_info=bsobj.find("div",{"id":"interest_sectl"})
        #处理电影评分信息
        #评分
        movie_vote=movie_votes_info.find("strong",{"class":"ll rating_num"}).get_text()
        #评分人数
        movie_voters=movie_votes_info.find("span",{"span":"v:votes"})
        #5星数量
        movie_vote_5_stars=movie_votes_info.find_all("span",{"class":"rating_per"})[0].get_text()
        print("正在解析电影信息",movie_id)
    except:
        print("电影信息解析失败")
        return None
    return [movie_id,
            movie_name,
            movie_vote,
            movie_voters,
            movie_vote_5_stars,
            movie_directer,
            movie_attrs,
            movie_actors,
            movie_genre,
            movie_saition,
            movie_language,
            movie_initialReleaseDate,
            movie_Runtime,
            movie_alias,
            movie_IMDb_url,
            movie_intro,
            movie_photos]

3.2 存储数据

#存储信息
def save_infos(infos,Directory):
    filepath = Directory + "/info/"
    if not os.path.exists(filepath):
        os.makedirs(filepath)
    conn = mysql.connector.connect(user='root', password='password', database='douban250')
    cursor = conn.cursor()
    print("-"*20)
    print("正在将movie%s信息存到数据库。。。。"%(infos[0]))
    cursor.execute('insert into movie_250_info \
                   (\
                   movie_id,\
                   movie_name,\
                   movie_vote,\
                   movie_voters,\
                   movie_vote_5_stars,\
                   movie_directer,\
                   movie_attrs,\
                   movie_actors,\
                   movie_genre,\
                   movie_saition,\
                   movie_language,\
                   movie_initialReleaseDate,\
                   movie_Runtime,\
                   movie_alias,\
                   movie_IMDb_url,\
                   movie_intro,\
                   movie_photos\
                   ) values (%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)', infos)
    conn.commit()
    conn.close()
    print("正在将文件存储为txt。。。。。")
    with open(filepath+ infos[0][3:] + ".txt", "a") as fi:
        for i in infos:
            if type(i) == list:
                for x in i:
                    fi.write(x)
                    fi.write("\t")
                continue
            fi.write(i if i is not None else "None")
            fi.write("\n")
    print("存储完成！")
    print("-" * 20)

在这一步，数据库的插入工作也废了不少时间，首先这是我第一次使用数据库，对于数据库的设计还一知半解，这也放之后单讲，今天上午我在写关于数据库的文了。应该很快了。这里我也存了一份文件作为参考。

3.3 爬取电影海报页面的30张海报的地址

可以看到，我将电影的海报地址作为列表的最后一项。这是只要用[-1]就能取到这个值。

# 获取海报页面前30张图片的地址
def get_img_url(movie_url):
    html=urlopen(movie_url)
    bsobj=BeautifulSoup(html, features="html.parser")
    img_url=bsobj.find_all("div",{"class":"cover"})
    l=[]
    for i in img_url:
        url=i.find("img").attrs["src"]
        l.append(url)
    #print("-"*20)
    print("30张海报地址获取成功！")
    return l

3.4下载海报

下载就很简单了，我没有用requests的保存二进制文件来保存文件，用的是urllib.urlretrieve,这个很好用。

#下载图片
def save_img(infos,Directory):
    img = get_img_url(infos[-1])
    filepath=Directory + "/pic/" + infos[0] + "/"
    print("-" * 20)
    print("海报储存在",filepath)
    #print("-" * 20)
    #print("\n")
    for i in img:
        download_img(i, filepath)
    print("海报30张下载成功")
    print("-" * 20)
# 下载海报
def download_img(url,download_directory):
    """
    保存海报
    输入：下载文件地址，和板存路径
    输出：将文件保存到相应文件下
    """
    if not os.path.exists(download_directory):
        os.makedirs(download_directory)
    file_path=download_directory+url[-14:]
    try:
        urlretrieve(url, file_path)
        #print("1")
        print("下载图片：%s完成！" % (url[-14:]))
        time.sleep(1)
    except :
        print("下载图片：%s失败！" % (url[-14:]))
        return None

我把他们分开写成了两个函数。我的老师跟我说，一个函数不应该很长。这次写爬虫中并没有注意这个问题，下次一定注意。而且我函数的分工还是有些冗余，不明确。这是一个缺点。

按照我们前面的分析，到这里就结束了。但是开头的main函数是我刚写的，之前并没这么想。
我的main函数：

def main():
    Directory = "C:/Users/葛苏健/Desktop/py/python小案例/004爬取豆瓣新片"
    print("正在获取10页目录。。。。。")
    ten_pageUrl = get_ten_pageurl()
    print("正在连接数据库。。。。。")
    conn = mysql.connector.connect(user='root', password='password', database='douban250')
    cursor = conn.cursor()
    cursor.execute('create table movie_250url '
                   '(id int primary key, '
                   'name varchar(20), '
                   'url char(50))')
    cursor.execute('create table movie_250_info (\
                        movie_id char(10) primary key,\
                        movie_name text,\
                        movie_vote char(20),\
                        movie_voters char(20),\
                        movie_vote_5_stars char(20),\
                       movie_directer text,\
                       movie_attrs text,\
                       movie_actors text,\
                       movie_genre text,\
                       movie_saition text NULL,\
                       movie_language text NULL,\
                       movie_initialReleaseDate text,\
                       movie_Runtime text,\
                       movie_alias text NULL,\
                       movie_IMDb_url text,\
                       movie_intro text,\
                       movie_photos text\
                       )')
    conn.commit()
    time.sleep(1)
    print("连接成功！")
    print("正在获取250个电影的详情页url。。。。")
    movieInfoPage_queue = get_250movie_page_url(ten_pageUrl, Directory)
    print("获取250个电影的详情页url成功！")
    time.sleep(1)
    # movieInfoPage_queue =MyQueue()
    # movieInfoPage_queue.destroy()
    # movieInfoPage_queue.push("https://movie.douban.com/subject/1291546/")
    # # #info_path = Directory + "/info.txt"
    print("正在创建文件夹")
    if not os.path.exists(Directory):
        os.makedirs(Directory)
        print("创建成功")
    print("开始爬取top250电影：")
    print("#"*50)
    while not movieInfoPage_queue.isEmpty():
        try:
            print("=" * 50)
            print("正在获取页面。。。")
            info = get_movie_info(movieInfoPage_queue.top())
            movieInfoPage_queue.pop()
            print("开始解析电影详情页。。。")
            infos = configure_infopage(info)
            print("解析电影详情页成功！")
            save_infos(infos,Directory)
            print("开始下载海报：")
            save_img(infos,Directory)
            print("海报下载完成\n")
            print("电影%s爬取成功！"%(infos[0]))
            print("=" * 50)
            print("\n")
        except:
            #print("=" * 50)
            print("失败！")
            print("=" * 50)
            print("\n")
            continue

....废话非常多，是因为我想了解爬虫每时每刻都在做什么。

下面来总结下：

这次爬虫用到了beautifulsoup、os、re、time、urllib.urlopen、mysql.connector、urllib.urlretrieve这里个库，高级的技术也没用到。
这次学会的：数据库交互。。。其他的都只是巩固，而且这次的数据库操作也不是很复杂，数据可视化还没有完成，代理、反爬都没遇到过。。。。

但是我还是巩固了基础，对爬虫的整体架构有了更深入的理解。之后我会单独将这次用到的技术拿出来写，以此来巩固。

那再来说说这次的不足：
代码冗余，不够精简、层次不清晰、写代码前的准备不够充分、函数式编程设计模式不熟悉，没有章法。我应该去看看设计模式方面的东西——spring MVC啥的。
同时这次的爬虫速度慢、空间使用量大。我昨晚上仔细看了看python的垃圾回收机制，收获不少——引用计数、代回收Generational GC，前者用于大多数情况，后专为循环引用设计，详细见python垃圾回收
写的很好。这次的爬虫还是有点问题，250部爬下来160部，剩下的都是因为处理信息时以及电脑自身问题，爬虫是在昨天运行的，写完文章后便没理它，一直运行，结果电脑频繁睡眠，电脑的wifi一直断，还好设置了等待，不然直接出错就全凉了，后来在我自己监督下还是断了几次，所以只爬了一半多，当然我觉得大部分还是代码的问题，存数据库，数据清洗的地方有问题，因为每部电影的详情页上的信息不一样，我只参照了几个，剩下的就是格式问题，因为时间问题，仅做学习用，也就没去找那几页的差距。

好的就这样，下周末继续，下面的代码，库安装完成后可以直接运行。

全部代码：

# 爬取要求：
# 目标豆瓣top250
# 结果：电影名，排名，导演，主演，评分，年代，分类，多少人评价，一句概括，电影海报。
# 用数据库储存
# 知识点：
# 爬虫基础
# 数据库
# 用队列存储未完成的标题
# 可以考虑多进程
import time
import os
import re
import mysql.connector
#考虑使用xpath
from bs4 import BeautifulSoup
from urllib.request import urlopen
from urllib.request import urlretrieve

#我用的自己写的队列，模块QUEUE使用不熟练
class LNode:
    def __init__(self,arg):
        self.data=arg
        self.next=None

class MyQueue:
    #模拟队列
    def __init__(self):
        #phead=LNode(None)
        self.data=None
        self.next=None
        self.front=self#指向队列首
        self.rear=self#指向队列尾
    #判断队列是否为空,如果为空返回True，否则返回false
    def isEmpty(self):
        return self.front==self.rear
    #返回队列的大小
    def size(self):
        p=self.front
        size=0
        while p.next!=self.rear.next:
            p=p.next
            size+=1
        return size
    #返回队列首元素
    def top(self):
        if not self.isEmpty():
            return self.front.next.data
        else:
            #print("队列为空")
            return None
    #返回队列尾元素
    def bottom(self):
        if not self.isEmpty():
            return self.rear.data
        else:
            #print("队列为空")
            return None
    #出队列
    def pop(self):
        if self.size()==1:
            data=self.front.next
            self.rear=self
            return data.data

        elif not self.isEmpty():
            data=self.front.next
            self.front.next=self.front.next.next
            #print("出队列成功")
            return data.data
        else:
            #print("队列已为空")
            return None
    #入队列
    def push(self,item):
        tmp=LNode(item)
        self.rear.next=tmp
        self.rear=self.rear.next
        #print("入队列成功")
    #清空队列
    def destroy(self):
        self.next=None
        #print("队列已清空")
    #打印队列
    def showQueue(self):
        if not self.isEmpty():
            p=self.front.next
            while p != self.rear.next:
                print(p.data)
                p=p.next

#获得10页包含250个简介的页面地址 
def get_ten_pageurl():
    #array=["https://movie.douban.com/top250?start=0&filter="]
    array=[]
    for i in range(0,250,25):
        array.append("https://movie.douban.com/top250?start="+str(i)+"&filter=")
    return array

# 得到每一个电影的详情页地址     
def get_250movie_page_url(ten_pageurl,Directory):
    """
    输入10页地址
    将top250 的电影首页地址保存下来，同时存到队列中和本地text
    """
    if not os.path.exists(Directory):
        os.makedirs(Directory)
    url_queue=MyQueue()
    conn = mysql.connector.connect(user='root', password='password', database='douban250')
    cursor = conn.cursor()
    conn.commit()
    for page_url in ten_pageurl:
        try:
            html = urlopen(page_url)
            bsobj = BeautifulSoup(html, features="html.parser")
            # 得到当前页面上25个包含序号、详情页的地址的div标签，存为列表
            movie_info_items = bsobj.findAll("div", {"class": "pic"})
            for movie_info in movie_info_items:
                try:
                    movie_id = int(movie_info.find("em").get_text())
                    movie_info_url = movie_info.find("a").attrs["href"]
                    movie_name=movie_info.find("img").attrs["alt"]
                    url_queue.push(movie_info_url)

                    with open(Directory + "/250homepage_url.txt", "a") as f:
                        f.write(str(movie_id))
                        f.write("\t")
                        f.write(movie_name)
                        f.write("\t")
                        f.write(movie_info_url)
                        f.write("\n")
                    print("获取movie%s详情页url成功"%(movie_id))
                    cursor.execute('insert into movie_250url '
                                   '(id, name,url) '
                                   'values (%s, %s,%s)',
                                   [movie_id, movie_name, movie_info_url])
                    conn.commit()
                except:
                    print("获取movie详情页url失败！")
                    #continue
            time.sleep(2)
        except:
            print("页面%s处理失败"%(page_url))
            time.sleep(1)
            continue
    cursor.close()
    return url_queue

#获取详情页
def get_movie_info(url):
    try:
        html = urlopen(url)
        bsobj = BeautifulSoup(html, features="html.parser")
        print("获取详情页面成功",url[-8:])
        time.sleep(1)
        return bsobj
    except:
        print("详情页面%s获取失败"%(url[-8:]))
        time.sleep(1)
        return None

#处理详情页
def configure_infopage(bsobj):
    try:
        #电影排名：
        movie_id=bsobj.find("span", {"class": "top250-no"}).get_text()
        # 得到当前页面上的电影名称
        movie_name = bsobj.find("span", {"property": "v:itemreviewed"}).get_text()
        #电影简介
        movie_intro=bsobj.find("span",{"property":"v:summary"}).get_text().replace("\n                                    \u3000\u3000","").replace("                                　　","")
        #获取电影海报页面链接
        movie_photos=bsobj.find("a",{"class":"nbgnbg"}).attrs["href"]
        #电影详细信息左
        movie_info_items=bsobj.find("div",{"id":"info"})
        #处理电影详细信息
        #导演: 弗兰克·德拉邦特
        movie_directer = movie_info_items.find("a", {"rel": "v:directedBy"}).get_text()
        #编剧: 弗兰克·德拉邦特 / 斯蒂芬·金
        movie_attrs =movie_info_items.find_all("a",{"href":re.compile("/celebrity"),})[0].get_text()+"|"+ \
                     movie_info_items.find_all("a", {"href": re.compile("/celebrity"), })[1].get_text()
        #主演: 蒂姆·罗宾斯 / 摩根·弗里曼 / 鲍勃·冈顿 / 威廉姆·赛德勒 / 克兰西·布朗 / 吉尔·贝罗斯 / 马克·罗斯顿 / 詹姆斯·惠特摩 / 杰弗里·德曼 / 拉里·布兰登伯格 / 尼尔·吉恩托利 / 布赖恩·利比 / 大卫·普罗瓦尔 / 约瑟夫·劳格诺 / 祖德·塞克利拉 / 保罗·麦克兰尼 / 芮妮·布莱恩 / 阿方索·弗里曼 / V·J·福斯特 / 弗兰克·梅德拉诺 / 马克·迈尔斯 / 尼尔·萨默斯 / 耐德·巴拉米 / 布赖恩·戴拉特 / 唐·麦克马纳斯
        # 取前3
        movie_actors=""
        for i in movie_info_items.find_all("a",{"rel":"v:starring"})[:5]:
            movie_actors=movie_actors+i.get_text()
        #类型: 剧情 / 犯罪
        movie_genre=movie_info_items.find_all("span",{"property":"v:genre"})[0].get_text()+"|"+ \
                    movie_info_items.find_all("span", {"property": "v:genre"})[1].get_text()
        #制片国家/地区: 美国
        movie_saition=None
        #语言: 英语
        movie_language=None
        #上映日期: 1994-09-10(多伦多电影节) / 1994-10-14(美国)
        movie_initialReleaseDate =""
        for i in movie_info_items.find_all("span", {"property": "v:initialReleaseDate"}):
            movie_initialReleaseDate=movie_initialReleaseDate+i.get_text()
        #片长: 142分钟
        movie_Runtime=movie_info_items.find("span",{"property":"v:runtime"}).get_text()
        #又名: 月黑高飞(港) / 刺激1995(台) / 地狱诺言 / 铁窗岁月 / 消香克的救赎
        movie_alias=None
        #IMDb链接: tt0111161
        movie_IMDb_url=movie_info_items.find("a",{"rel":"nofollow"}).attrs["href"]
        #电影评分信息
        movie_votes_info=bsobj.find("div",{"id":"interest_sectl"})
        #处理电影评分信息
        #评分
        movie_vote=movie_votes_info.find("strong",{"class":"ll rating_num"}).get_text()
        #评分人数
        movie_voters=movie_votes_info.find("span",{"span":"v:votes"})
        #5星数量
        movie_vote_5_stars=movie_votes_info.find_all("span",{"class":"rating_per"})[0].get_text()
        print("正在解析电影信息",movie_id)
    except:
        print("电影信息解析失败")
        return None
    return [movie_id,
            movie_name,
            movie_vote,
            movie_voters,
            movie_vote_5_stars,
            movie_directer,
            movie_attrs,
            movie_actors,
            movie_genre,
            movie_saition,
            movie_language,
            movie_initialReleaseDate,
            movie_Runtime,
            movie_alias,
            movie_IMDb_url,
            movie_intro,
            movie_photos]

# 获取海报页面前30张图片的地址
def get_img_url(movie_url):
    html=urlopen(movie_url)
    bsobj=BeautifulSoup(html, features="html.parser")
    img_url=bsobj.find_all("div",{"class":"cover"})
    l=[]
    for i in img_url:
        url=i.find("img").attrs["src"]
        l.append(url)
    #print("-"*20)
    print("30张海报地址获取成功！")
    return l

# 下载海报
def download_img(url,download_directory):
    """
    保存海报
    输入：下载文件地址，和板存路径
    输出：将文件保存到相应文件下
    """
    if not os.path.exists(download_directory):
        os.makedirs(download_directory)
    file_path=download_directory+url[-14:]
    try:
        urlretrieve(url, file_path)
        #print("1")
        print("下载图片：%s完成！" % (url[-14:]))
        time.sleep(1)
    except :
        print("下载图片：%s失败！" % (url[-14:]))
        return None

#处理信息
def save_infos(infos,Directory):
    filepath = Directory + "/info/"
    if not os.path.exists(filepath):
        os.makedirs(filepath)
    conn = mysql.connector.connect(user='root', password='password', database='douban250')
    cursor = conn.cursor()
    print("-"*20)
    print("正在将movie%s信息存到数据库。。。。"%(infos[0]))
    cursor.execute('insert into movie_250_info \
                   (\
                   movie_id,\
                   movie_name,\
                   movie_vote,\
                   movie_voters,\
                   movie_vote_5_stars,\
                   movie_directer,\
                   movie_attrs,\
                   movie_actors,\
                   movie_genre,\
                   movie_saition,\
                   movie_language,\
                   movie_initialReleaseDate,\
                   movie_Runtime,\
                   movie_alias,\
                   movie_IMDb_url,\
                   movie_intro,\
                   movie_photos\
                   ) values (%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)', infos)
    conn.commit()
    conn.close()
    print("正在将文件存储为txt。。。。。")
    with open(filepath+ infos[0][3:] + ".txt", "a") as fi:
        for i in infos:
            if type(i) == list:
                for x in i:
                    fi.write(x)
                    fi.write("\t")
                continue
            fi.write(i if i is not None else "None")
            fi.write("\n")
    print("存储完成！")
    print("-" * 20)

#下载图片
def save_img(infos,Directory):
    img = get_img_url(infos[-1])
    filepath=Directory + "/pic/" + infos[0] + "/"
    print("-" * 20)
    print("海报储存在",filepath)
    #print("-" * 20)
    #print("\n")
    for i in img:
        download_img(i, filepath)
    print("海报30张下载成功")
    print("-" * 20)

def main():
    Directory = "C:/Users/葛苏健/Desktop/py/python小案例/004爬取豆瓣新片"
    print("正在获取10页目录。。。。。")
    ten_pageUrl = get_ten_pageurl()
    print("正在连接数据库。。。。。")
    conn = mysql.connector.connect(user='root', password='password', database='douban250')
    cursor = conn.cursor()
    cursor.execute('create table movie_250url '
                   '(id int primary key, '
                   'name varchar(20), '
                   'url char(50))')
    cursor.execute('create table movie_250_info (\
                        movie_id char(10) primary key,\
                        movie_name text,\
                        movie_vote char(20),\
                        movie_voters char(20),\
                        movie_vote_5_stars char(20),\
                       movie_directer text,\
                       movie_attrs text,\
                       movie_actors text,\
                       movie_genre text,\
                       movie_saition text NULL,\
                       movie_language text NULL,\
                       movie_initialReleaseDate text,\
                       movie_Runtime text,\
                       movie_alias text NULL,\
                       movie_IMDb_url text,\
                       movie_intro text,\
                       movie_photos text\
                       )')
    conn.commit()
    time.sleep(1)
    print("连接成功！")
    print("正在获取250个电影的详情页url。。。。")
    movieInfoPage_queue = get_250movie_page_url(ten_pageUrl, Directory)
    print("获取250个电影的详情页url成功！")
    time.sleep(1)
    # movieInfoPage_queue =MyQueue()
    # movieInfoPage_queue.destroy()
    # movieInfoPage_queue.push("https://movie.douban.com/subject/1291546/")
    # # #info_path = Directory + "/info.txt"
    print("正在创建文件夹")
    if not os.path.exists(Directory):
        os.makedirs(Directory)
        print("创建成功")
    print("开始爬取top250电影：")
    print("#"*50)
    while not movieInfoPage_queue.isEmpty():
        try:
            print("=" * 50)
            print("正在获取页面。。。")
            info = get_movie_info(movieInfoPage_queue.top())
            movieInfoPage_queue.pop()
            print("开始解析电影详情页。。。")
            infos = configure_infopage(info)
            print("解析电影详情页成功！")
            save_infos(infos,Directory)
            print("开始下载海报：")
            save_img(infos,Directory)
            print("海报下载完成\n")
            print("电影%s爬取成功！"%(infos[0]))
            print("=" * 50)
            print("\n")
        except:
            #print("=" * 50)
            print("失败！")
            print("=" * 50)
            print("\n")
            continue

if __name__ == '__main__':
    main()

可以做做修改，提高效率，然后将存数据库和提取信息的地方的容错率提高一点，这样每一页就都能保存下来了。下周寻个有点难度但是内容不要太多。

加油！最近在复习计算机网络——tcp/ip——应用层->运输层->网络层->数据链路层->物理层，这里的应用层和运输层之间还是不太理解。
。。。。。
2019年3月17日17:04:44

python爬虫—豆瓣250—对上周末爬虫总结，记录遇到的问题以
今天的文比较长：加代码一共8296字，不算代码一共：3746.阅读时间较长，内容仅做参考，之前看了不少大厂对实习生...
Python学习
python爬虫(五) python爬虫爬取豆瓣电影Top250数据利用python爬取豆瓣电影TOP250页面...
Python爬虫-豆瓣电影Top250-各项信息爬取及xls保存
Python爬虫-豆瓣电影Top250-各项信息爬取及xls保存目的采用python爬虫爬取豆瓣电影Top25...
Python学习
python爬虫(四) python爬虫爬取豆瓣电影数据今天我们爬取一下豆瓣电影TOP250页面电影的数据，依然...
用Xpath爬取豆瓣音乐top250遇到的问题
初学python爬虫，遇到诸多疑难问题。今天这个特别大。目的是简单的使用Xpath爬取豆瓣音乐top250，并存储...
豆瓣爬虫实践-python版
豆瓣登录，无验证码版：豆瓣TOP250电影爬虫 python，生活因你而精彩！
转:python抓取百度贴吧实例
背景最近开始学习python爬虫，刚好看到网上的爬虫实例，转自静觅爬虫。转载是为了记录学习过程中遇到的问题，...
练习：豆瓣电影TOP250爬虫
练习：豆瓣电影TOP250爬虫（优化）
用Python分析豆瓣电影TOP250
既然要分析豆瓣电影TOP250，那就肯定使用一下爬虫咯，如果还不会的话，欢迎看之前的文章： Python爬虫学习...
Python第三天（spider_豆瓣）
豆瓣top250电影爬虫未完待续/...