利用新浪API实现数据的抓取

作者: 9ba4bd5525b9 | 来源:发表于2019-06-10 16:00 被阅读69次

利用新浪API实现数据的抓取
利用新浪API实现数据抓取\微博数据爬虫\API爬虫
微博API数据的保存与处理
不使用NEW运算符如何创建JS对象
利用curl抓取网络数据
0823笔记
用Swift 3.0 高仿微博首页,实现了查看和发布微博功能
Python抓取新浪新闻数据
[数据分析] 简书在微博上的分享情况
开放式基金有多少支？数据告诉你

1.　首先来看看最后我们得到的是什么结果，是不是你想要了解的东西，再决定是否往下读。

我主要抓取了大概4天的数据，图上可以看的出来大概有360万条数据，由于是在自己的电脑上爬取做数据的，有时候晚上断网了就间断了，所以大概一天可以爬取有100万左右的最新微博数据（因为我调用的是最新的微博APIpublic_timeline)

API文档当中定义了很多返回的类型（以json数据格式返回，我选取了一些我认为重要的信息抓取下来_如图所示_:　大概有id号，所在位置，粉丝数，发的微博内容，发微博的时间等等。　当然这些数据都可以根据自己的需要进行定制。)

大概就是这些内容，你如果认为这对你有点帮助，就请继续读下去... 第一次写博客有些啰嗦

2.　前期准备

我们需要的东西：

数据库:　mongodb（可以使用客户端MongoBooster)

开发环境：　Python2.7(我用的IDE是Pycharm)

一个新浪开发者账号：　用自己的新浪微博账号注册就行（后面会讲）

需要的库：requests和pymongo(这些都可以在Pycharm中下载)

2.1　mongodb的安装

MongoDB是一个高性能，开源，无模式的文档型数据库，是当前NoSql数据库中比较热门的一种。它在许多场景下可用于替代传统的关系型数据库或键/值存储方式。Mongo使用C++开发。Mongo的官方网站地址是：http://www.mongodb.org/，读者可以在此获得更详细的信息。

2.2　新浪开发者账号的注册方法

注册新浪微博账号（163邮箱、手机号）

创建完毕需要填写手机号验证

进入新浪开放者平台：http://open.weibo.com/

点击继续创建

初次创建应用需要填写如下信息：

代码实现

有了token之后，实现抓取数据就十分简单了

能抓取数据的多少就取决于你的token权限了

接下来就是利用API来获取数据了：新建一个文件weibo_run.py

网友评论

黑科技

本文标题：利用新浪API实现数据的抓取

本文链接：https://www.haomeiwen.com/subject/nawzxctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

利用新浪API实现数据的抓取

相关文章