简单爬虫爬取微博数据（一）

作者: 咖啡要加糖 | 来源:发表于2015-05-25 20:40 被阅读0次

简单爬虫爬取微博数据（一）
简单爬虫爬取微博数据（二）
【工具】echarts+kuno+分词
scrapy爬取新浪微博分享（1）
scrapy爬取新浪微博分享（2）
scrapy爬取新浪微博分享（3）
爬虫
简单python爬虫，爬取基金信息
Python 学习——每天写点小东西-6
Python实践与学习索引

Step1

首先当然要配置好scrapy啦，配置好以后在终端里新建项目

scrapy startproject weibo

然后打开items.py，我们在里面加入我们这次要爬下来的数据

ids = scrapy.Field()

comments = scrapy.Field()

reposts = scrapy.Field()

我们只是做一个小测试，爬取一下陈教主的微博首页的赞数，评论数等

Step2

爬取微博最好用手机版的，我们打开陈乔恩的微博，然后检查元素，看一下到底陈教主的微博首页有哪些信息。

html截图

啦啦啦！这就是我们要找的地方啦。

Step3

py代码

for sel in response.xpath('/html/body/div[@id]'):

item = WeiboItem()

item['ids'] = sel.xpath('div/a[contains(@href,\'attitude\')]/text()').extract()

item['comments'] = sel.xpath('div/a[contains(@href,\'comment\')]/text()').extract()

item['reposts'] = sel.xpath('div/a[contains(@href,\'repost\')]/text()').extract()

yield item

现在进入重头戏，爬虫主程序，首先当然给爬虫命个名，然后写一下要爬的网址的url，然后就是处理数据啦，根据前面那张html的结构，我们来看一下，选择xpath语句来找到我们想要的内容。

tips：

注意哦，xpath里面的contains可以帮助我们选择需要包含的属性！真是太tm好用了！

Step4

在终端里运行我们的小爬虫

scrapy crawl Weibo -o items.csv

这个语句会生成一个csv文件，一开始用excel打开会看到一堆乱码...不过不用担心，只是存储的时候用的unicode编码而已，我们用记事本打开瞬间就可以变成熟悉的中文了呢~~

总结

小爬虫终于搞定了呢，现在还只能爬取单个页面，下一步就是用它实现爬取多个页面啦~

网友评论

本文标题：简单爬虫爬取微博数据（一）

本文链接：https://www.haomeiwen.com/subject/tgdrqttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

简单爬虫爬取微博数据（一）

Step1

Step2

Step3

tips：

Step4

总结

相关文章

简单爬虫爬取微博数据（一）

简单爬虫爬取微博数据（二）

【工具】echarts+kuno+分词

scrapy爬取新浪微博分享（1）

scrapy爬取新浪微博分享（2）

scrapy爬取新浪微博分享（3）

爬虫

简单python爬虫，爬取基金信息

Python 学习——每天写点小东西-6

Python实践与学习索引

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读