爬虫第一天

一直都想去学爬虫，因为爬虫可以爬很多很多好玩的东西，比如好看的图片。但是之前总是三天打鱼两天晒网。现在特地来好好地系统学习一下。也算是巩固一下之前的python。不至于荒废了。我可不想只当一个前端程序员。
现在手头上有一个网易云课堂的21天学分布式爬虫的教学视频。之前在京东还买了一本电子书，叫《Python 网络爬虫从入门到实践》，现在开始看起来。然后还有本网上下载的电子书关于Scrapy爬虫的，后面再看吧。
今天（应该是包括昨天晚上）主要是看了书的前三章。练习了爬豆瓣电影TOP250的电影名。我的Python3运行环境是用anaconda3（64bit）的Jupyter notebook，我的浏览器是Chrome。代码如下：

import requests
from bs4 import BeautifulSoup
def get_movies():
    headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36', #设置请求头，这个头可以从Chrome 按F12查看network,再一次刷新页面的第一个文件左键单击就可以从右边的Header下面的Requeste Header看到，可以直接复制
    'Host': 'movie.douban.com' #设置主机名
    }
    movie_list = []
    for i in range(0,10): # 这里需要对每一个页面的地址进行分析才能想到的循环操作
        link = 'https://movie.douban.com/top250?start=' + str(i * 25)
        r = requests.get(link, headers=headers, timeout= 10)
        print (str(i+1),"页响应状态码:", r.status_code) #打印响应码
        
        soup = BeautifulSoup(r.text, "lxml") # 这一部分不是很清楚
        div_list = soup.find_all('div', class_='hd')
        for each in div_list:
            movie = each.a.span.text.strip()
            movie_list.append(movie)
    return movie_list       
print (get_movies())

with open('豆瓣电影TOP250.txt', "w") as f: # 对内容进行保存
    for a in get_movies():
        f.write(a+'\n')
    f.close() #

看了教学视频主要内容如下：