Python入手（一）

作者: xiasuhuei321 | 来源:发表于2017-10-25 22:33 被阅读0次

Python入手（一）
Python入手（二）
可以从哪里入手Python编程怎么专业学习Python
可以从哪里入手Python编程怎么专业学习Python
可以从哪里入手Python编程怎么专业学习Python
python 《第二谈》
一. pygame 环境配置
《Python基础教程（第3版）》之快速上手
MAC电脑MySQL5.17的安装与配置
学爬虫，需要掌握哪些Python基础？

去年就说要看一看 python（其实去年还说要看C++/JavaScript），看了一点儿语法之后一直没再碰过了。最近写 Android 写的头昏脑涨，决定看点 python 换下脑子。由于暂时打算用python玩一下，所以就不深入追究语言细节，只做一些有趣的事情。本文将简单的提及以下内容：

requests
BeautifulSoup
python io

用 Python 做什么

这里打算通过分析豆瓣电影TOP250网页来提取一些电影信息，通过干这件事来对 python 的 io 、http 请求方式做一些简单的了解。分析网页这里选择使用 Beautiful Soup 来做标签解析，请求库选用 requests。

准备工作

阅读 requests 文档

这里的目标是拿到网页，也就是html，然后分析提取内容，这里的目标网页没有什么特殊的验证机制，所以只需要通过 http 协议中的 get 请求方式获取网页响应就可以了。

r = requests.get('https://github.com/timeline.json')

阅读 Beautiful Soup 文档

这里就要好好的看看了，因为提取信息需要用到这个库。这里我做了一些简单的了解，这个库遍历了 html 生成了一个 python 对象，后续的解析就通过这个对象来完成。由于不了解这个库的实现方式，所以还是有些担忧效率的，因为 html 这种嵌套层级可能非常多的东西，生成的类查找效率可能堪忧。不过现在也不想去考虑这些问题，暂时先用着~

分析网页

分析主要就是分析一下一些自己感兴趣信息的标签和属性，以此为键提取出相应的值。分析网页自带的开发者工具真的是十分的好用，因为这里的网页比较简单，在点击切换界面的时候发现网页链接 url 变化如下：
https://movie.douban.com/top250 ->
https://movie.douban.com/top250?start=25

nice，很简单，想拿到全部250部电影信息只需要改变url的start参数值就可以了。这里是简单的通过 get 请求传参，如果是 post 或者一些其他的方式传参数，就需要我们通过抓包工具去抓包分析数据包。

编写代码

代码其实非常简单，如果按照我前面说的步骤来，基本不需要我做什么过多累赘的解释（所以这里我就不做过多的解释了）：

# -*- coding: UTF-8 -*-
from bs4 import BeautifulSoup
import requests

count = 0
FILE_PATH = '豆瓣电影TOP250.txt'


def getMovieList():
    global count
    resp = requests.get('https://movie.douban.com/top250?start=' + str(count))
    bs = BeautifulSoup(resp.text, 'html.parser')
    for item in bs.find_all('div', {'class': 'item'}):
        title = item.find('span', {'class': 'title'}).get_text()
        rating_num = item.find('span', {'class': 'rating_num'}).get_text()
        img = item.find('img')['src']
        tag = item.find('span', {'class': 'inq'})
        if tag is not None:
            desc = tag.get_text()
            print('标题：', title, ' 评分：', rating_num, ' 描述：', desc, ' image_url：', img)
            # img = item.find('div', {'class': 'pic'}).find("a").get_text()
            # print(title, img)
            f.writelines('标题：' + title + ' 评分：' + rating_num + ' 描述：' + desc + ' image_url：' + img+"\n\n")
    count += 25
    if count >= 255:
        print('获取完毕')
    else:
        getMovieList()


f = open(FILE_PATH, 'w+', encoding='utf-8')
getMovieList()
f.close()

输出结果：