不用代码，2分钟抓取胡歌全部微博内容

不用代码，2分钟抓取胡歌全部微博内容

作者: 书生婉悠 | 来源:发表于2018-01-23 15:50 被阅读282次

不用代码，2分钟抓取胡歌全部微博内容
仙剑留守儿童胡歌：我不着急彭于晏还没结婚呢
有关webscraper的问题，看这个就够了（建议收藏）
如果胡歌暂别影视圈是为了做这件事，那该有多好！
胡歌理性发言被喷，网络世界如何生存？
181-5飞鱼船长公号作业传播篇#运营控课程#
[数据分析] 简书在微博上的分享情况
python爬虫抓取新浪微博数据
我的榜样胡歌，教会了我这些
疫情面前，你们是最可爱的人

在之前的文章和课程中，对web scraper的安装和使用方法都做了非常详细说明，相信大家都明白了web scraper的用处和采集流程，那么今天就以采集影视明星胡歌微博为例，继续深入说明web scraper的使用。

安装和使用web scraper的方法可以翻看我之前的文章，如果找不到文章或者无法下载web scraper插件可以联系我微信zds369466004。

打开目标网页：https://weibo.com/hu_ge?profile_ftype=1&is_all=1#_0，需要采集的是微博内容，因此，在目标网页上执行下列操作：

一、通过下面通过下面三种方法打开web scraper：

1、windows, linux：Ctrl+Shift+I 或者 f12, 或者Tools / Developer tools

2、mac： Cmd+Opt+I, 或者Tools / Developer tools

3、或者：右键——> 审查元素（适用于各个系统），选择web scraper即可。

二、新建采集站点地图。

1、点击create new sitemap选择create sitemap,如下图所示即可建立一个站点地图。

2、点击create sitemap后就可以进入到站点地图的相关设置页面：

这里需要填写的是sitemap name和start url：

Sitemap：是地图名字，可以自己填写

Start url：指的是采集链接，就是你采集的页面的链接，直接从浏览器将链接复制即可。

最后点击create sitemap即可创建好了采集地图。

三、设置一级采集器

因为我们要采集的内容包括微博内容，所以就需要选设定选择范围，这里范围的设定就是一级采集器。

在之前第二步建立好站点采集器后的基础上，就进入到了一级采集器的设置页面：

这些设置在之前的文章中都有非常详细的介绍，如果有兴趣的朋友，可以看看之前的文章，那么这里就做简单的介绍：

1、Id：指的是以及选择器的名称，大家可以根据自己需求来设置，这里设置content；

2、Type：指的是采集器的内容，有采集文本的text、有采集链接的link、有采集图片的image类型等等，因为这里是翻页，此处选择Element click，指的就是点击翻页。

3、点击 “Select” 进行元素选择，把鼠标移到目标对象上，对象会变成淡蓝色，当点击需要采集的元素后，就会变成淡红色，这就表示选择好了元素。

在选择第一个元素后，再移动鼠标放到第二个需要选择的元素上，点击元素变成红色之后，也表示选中了。此时页面页面上相同的元素就会编程一样的红色，完成后，点击悬浮工具框蓝色的“Done slecting!"

4、勾选 “Multiple”，表示选择的内容是多样的；

5、Delay：表示延迟时间，意思是等待多长时间后，再进行抓取，建议填2000

6、点击”Save Selector“

这步完成后，你会发现，sitemap下出现了一个叫content的选择器，如下图

四：设置二级采集器，选择具体的元素

在第三个步骤设置好一级采集器也就是设定选择范围后，我们需要提取选择范围中我们需要的元素，这就是二级采集器的功能。

1、点击content进入到二级采集器添加页面；

2、点击add new selector，建立二级采集器；

3、进入到二级采集器设置页面，这部分其实是和一级采集器的内容是相同的，但是在设置上是有差别的：

（1）Id：可以自己设置，自己看懂就好；

（2）Type：二级采集器的类型，因为要采集的是文本内容，因此采集器此处选择Text

（3）点击 “Select” 进行元素选择，把鼠标移动到第一条微博内容上，点击需要的内容，第一个帖子会变黄，我们点击这个黄色区域，它会变为红色，此时就表示以及选取目标；

（4）点击”Save Selector“，其他的都不用设置。

以上，我们抓取胡歌微博的所有设置都已完成。

五、开始正式抓取：

1、在经过上面4个步骤设置后，就可以正式开始抓取了，如下图选择scrape即可：

2、点击scrape后，就会进入到时间设置页面，这几个都默认就行：

3、直接点击“Start scraping”，点击后，浏览器会弹出一个新窗口，进行抓取工作，不要关闭，等待他抓取完毕。你会发现，弹出的窗口，会自动下拉鼠标，模拟人的手，自动化的将这页全部的帖子全部抓取下来。

完毕后，会出现抓取的数据，如下图：如下图：

4、选择export data as csv就可以导出表格；

到这里就完成了全部的抓取过程，我想如何掌握后可以非常快速地设置后，基本上2分钟内就可以搞定了。这就比用python要快很多了。

我其实挺不建议非科班的人因为数据采集然后花大量的时间去学习python，因为数据采集完成之后还需要进行更加复杂的假设和分析，这才是真正重要的地方。

相关文章

不用代码，2分钟抓取胡歌全部微博内容
在之前的文章和课程中，对web scraper的安装和使用方法都做了非常详细说明，相信大家都明白了web scra...
仙剑留守儿童胡歌：我不着急彭于晏还没结婚呢
杨幂结婚，胡歌微博沦陷。刘诗诗结婚，胡歌微博沦陷。袁弘结婚，胡歌微博沦陷。唐嫣公开恋情，胡歌微博沦陷。刘亦菲恋爱，...
有关webscraper的问题，看这个就够了（建议收藏）
之前写过一篇「不用写代码，30 秒抓取李笑来所有微博」，链接：https://www.jianshu.com/p/...
如果胡歌暂别影视圈是为了做这件事，那该有多好！
曾记否：杨幂刘恺威公开，胡歌躺枪，微博沦陷！刘诗诗吴奇隆公开，胡歌躺枪，微博沦陷！林心如霍建华公开，胡歌躺枪...
胡歌理性发言被喷，网络世界如何生存？
1 胡歌，我很喜欢的一位演员。这几天胡歌发了一条微博，微博原内容如下：就这段话，在网络上炸了锅，有一些有心的黑...
181-5飞鱼船长公号作业传播篇#运营控课程#
1、选题：胡歌出国留学标题：还在眼高手低？胡歌教你平视自己！ 2、平台：简书＋微博＋微信原因：微博是因为，...
[数据分析] 简书在微博上的分享情况
抓取新浪微博中简书的分享数据进行简单分析。在新浪微博上搜索“简书”关键字，抓取字段包括：用户名、微博内容，发表时...
python爬虫抓取新浪微博数据
需求分析抓取琢磨先生的新浪微博抓取的内容包括：微博发布的时间，正文(仅提取文字)，转发数，评论数，点赞数数...
我的榜样胡歌，教会了我这些
4月19日刷微博，正好看到荣耀10手机发布，闪念一想“胡歌铁定会在今天发布微博”。到胡歌微博主页一看，果不其然！ ...
疫情面前，你们是最可爱的人
昨天胡歌的“掀起你的盖头来”上了热搜，这是胡歌回复的一条微博，发微博的这个小姑娘是胡歌的粉丝，也是一名奋战在武汉的...

网友评论

本文标题：不用代码，2分钟抓取胡歌全部微博内容

本文链接：https://www.haomeiwen.com/subject/chnkoxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

数据采集数据分析

首页投稿（暂停使用，暂停投稿）

热点阅读

数据采集数据分析

程序员

@产品

首页投稿（暂停使用，暂停投稿）

关于我们|服务条款|联系我们|不用代码，2分钟抓取胡歌全部微博内容|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！