美文网首页
简单爬虫爬取微博数据(一)

简单爬虫爬取微博数据(一)

作者: 咖啡要加糖 | 来源:发表于2015-05-25 20:40 被阅读0次

Step1

首先当然要配置好scrapy啦,配置好以后在终端里新建项目

    scrapy startproject weibo

然后打开items.py,我们在里面加入我们这次要爬下来的数据

      ids = scrapy.Field()

      comments = scrapy.Field()

      reposts = scrapy.Field()

我们只是做一个小测试,爬取一下陈教主的微博首页的赞数,评论数等

Step2

爬取微博最好用手机版的,我们打开陈乔恩的微博,然后检查元素,看一下到底陈教主的微博首页有哪些信息。

html截图

啦啦啦!这就是我们要找的地方啦。

Step3

py代码

for sel in response.xpath('/html/body/div[@id]'):

     item = WeiboItem()

     item['ids'] = sel.xpath('div/a[contains(@href,\'attitude\')]/text()').extract()

     item['comments'] = sel.xpath('div/a[contains(@href,\'comment\')]/text()').extract()

     item['reposts'] = sel.xpath('div/a[contains(@href,\'repost\')]/text()').extract()

yield item

现在进入重头戏,爬虫主程序,首先当然给爬虫命个名,然后写一下要爬的网址的url,然后就是处理数据啦,根据前面那张html的结构,我们来看一下,选择xpath语句来找到我们想要的内容。

 tips:

     注意哦,xpath里面的contains可以帮助我们选择需要包含的属性!真是太tm好用了!

Step4

在终端里运行我们的小爬虫

      scrapy crawl Weibo -o items.csv

这个语句会生成一个csv文件,一开始用excel打开会看到一堆乱码...不过不用担心,只是存储的时候用的unicode编码而已,我们用记事本打开瞬间就可以变成熟悉的中文了呢~~

总结

小爬虫终于搞定了呢,现在还只能爬取单个页面,下一步就是用它实现爬取多个页面啦~

相关文章

  • 简单爬虫爬取微博数据(一)

    Step1 首先当然要配置好scrapy啦,配置好以后在终端里新建项目 scrapy startproject...

  • 简单爬虫爬取微博数据(二)

    昨天呢讲了如何通过一个最基本的爬虫来抓取单个页面上的数据,但这样我们肯定是不能满足的,比如我们想要抓取一个人的所有...

  • 【工具】echarts+kuno+分词

    数据: python爬虫:微博爬虫、借助'出书啦'爬微信知乎Java爬虫:Java微博爬虫 时间轴: JAVA时间...

  • scrapy爬取新浪微博分享(1)

    内容概要: 最近自己学习了一些爬虫,学习之余,写了一个新浪微博的爬虫。大规模爬数据没有试过,但是爬取几十万应该没有...

  • scrapy爬取新浪微博分享(2)

    内容概要: 最近自己学习了一些爬虫,学习之余,写了一个新浪微博的爬虫。大规模爬数据没有试过,但是爬取几十万应该没有...

  • scrapy爬取新浪微博分享(3)

    内容概要: 最近自己学习了一些爬虫,学习之余,写了一个新浪微博的爬虫。大规模爬数据没有试过,但是爬取几十万应该没有...

  • 爬虫

    复习 什么是爬虫?爬虫是用来做什么的?怎么使用爬虫爬取数据? 数据的重要性 数据的来源 爬取数据的规则【通用爬虫 ...

  • 简单python爬虫,爬取基金信息

    简单爬虫,爬取基金信息,使用了mysql数据库,代码如下:

  • Python 学习——每天写点小东西-6

    今天的爬虫是爬取某网站的所有链接,涉及到了MongoDB及其简单的操作,和多线程,虽然爬取的数据简单,但是能爬取这...

  • Python实践与学习索引

    爬虫小专栏—爬取广州二手房信息小专栏—爬虫模块化小专栏—广度优先爬虫小专栏—爬取某个用户的所有微博包简书—pandas

网友评论

      本文标题:简单爬虫爬取微博数据(一)

      本文链接:https://www.haomeiwen.com/subject/tgdrqttx.html