美文网首页
使用豆瓣API进行数据爬取

使用豆瓣API进行数据爬取

作者: Carina_55 | 来源:发表于2018-06-08 11:45 被阅读0次

使用网站提供的API爬取网站中的数据是一种操作较为简单直接的方式,例如豆瓣网提供了对于电影、书籍等资源的各种数据的API,我们可以通过调用API来得到所需的数据,代码的编写也较灵活简洁。通过API获取数据的缺点是有些网站会限制API调用的次数和频率,用户需要付费来升级成高级用户来获取更灵活的API调用。

一.使用Jupyter Notebook编写Python

Jupyter Notebook是一个交互式的笔记本,可以理解成是一个IDE,支持40多种语言
1.安装
conda install jupyter
2.运行
jupyter notebook
输入以上命令即可在浏览器中打开编辑器

Xshot-0003.png

点击右上角New新建Python 3的Notebook后即可开始编写代码


Xshot-0004.png
二. 豆瓣电影TOP250数据爬取

先引入一个urllib的包来发送http请求

urllib是一个包含几个模块来处理请求的库。分别是:
urllib.request 发送http请求
urllib.error 处理请求过程中,出现的异常。
urllib.parse 解析url
urllib.robotparser 解析robots.txt 文件

import urllib.request as request

为使结果以json格式显示,于是添加以下代码

import json
print(json.loads(crawl_content.decode('utf8')))

爬取数据

import urllib.request as request
import json
url = 'https://api.douban.com/v2/movie/top250'
crawl_content = request.urlopen(url).read()
movies = json.loads(crawl_content.decode('utf8'))['subjects']
for movie in movies:
    print(json.loads(crawl_content.decode('utf8')))
得到部分结果如下: Xshot-0005.png

为使结果更简洁,只提取电影名称、年份、类型、评分四项数据,将代码修改如下:

import urllib.request as request
import json
url = 'https://api.douban.com/v2/movie/top250'
crawl_content = request.urlopen(url).read()
movies = json.loads(crawl_content.decode('utf8'))['subjects']
for movie in movies:
    print(movie['title'],movie['year'],movie['genres'],movie['rating']['average'])
得到结果: Xshot-0006.png

从结果可看出豆瓣的API允许用户获取前20项结果的数据

相关文章

  • 使用豆瓣API进行数据爬取

    使用网站提供的API爬取网站中的数据是一种操作较为简单直接的方式,例如豆瓣网提供了对于电影、书籍等资源的各种数据的...

  • DC学院_数据爬取2018-01-23

    使用API爬取网页数据 问题:获取1000部豆瓣电影的评分 爬虫 1. 确定爬取链接 2. 读取链接指向的内容 3...

  • bilibili

    数据爬取 使用python 中的requests对bilibili api网站进行请求,对10100000到254...

  • 爬虫代码集

    一、简单爬取猫眼(使用字符串) 二、简单爬取豆瓣(使用XPATH) Beautiful Soup爬取

  • scrapy爬取豆瓣热门电影信息

    对豆瓣热度电影进行简单爬取 豆瓣热门电影信息是动态加载的,通过network,可以看到加载热门电影信息的api是h...

  • 百度百聘-python爬虫实践

    这次是分析网页获得后台API的接口网址,然后直接进行爬取。随着学习深入,可将爬取内容直接写入数据库。

  • 爬虫入门01-获取网络数据的原理作业

    作业: 要爬取的数据类别 对应的数据源网站 爬取数据的URL 数据筛选规则 我的答案是这样的: 要爬取的数据是豆瓣...

  • Python学习

    python爬虫(四) python爬虫爬取豆瓣电影数据 今天我们爬取一下豆瓣电影TOP250页面电影的数据,依然...

  • Python学习

    python爬虫(五) python爬虫爬取豆瓣电影Top250数据 利用python爬取豆瓣电影TOP250页面...

  • 豆瓣电影Top250数据分析

    一、requirements 二、获取并存储数据 爬取豆瓣TOP250数据,并存储到数据库 步骤: 定义爬取地址 ...

网友评论

      本文标题:使用豆瓣API进行数据爬取

      本文链接:https://www.haomeiwen.com/subject/jdvjsftx.html