如何用R语言爬取网页表格数据节省一天工作时间

作者: 小熊猫在成长 | 来源:发表于2017-02-23 08:46 被阅读1079次

如何用R语言爬取网页表格数据节省一天工作时间
R爬虫小白实例教程 - 基于rvest包
简单的爬虫例子
描述统计学之R语言实战2：图形法
转载一些好的技术文章
搜狗·疫情数据爬取（Python）
使用R语言爬取DailyMed药物信息
使用Python爬取网站数据分析
R语言 | 网页数据爬取rvest包学习
R爬虫实战--爬取MalaCard疾病数据库信息

今天R语言给我帮了一个大忙，简单的几行代码几乎节省了我一天的时间，小白表示R语言太有用了！

问题如下：

我想获取网页中表格里的数据，网页表格如下图

但是呢，很坑爹的是，这个表格不能复制粘贴，Ctrl+C，Ctrl+V后出来的只是网址，估计是被禁用了复制粘贴功能。而如果一个一个敲的话工作量会很大，估计最后眼都要瞎了……

整个数据量如下，http://www.chinacustomsstat.com/aspx/1/NewData/Stat_Data.aspx?state=1&next=2¤cy=usd&year=2016

有2014-2017年四年，每年有7个项目，每个项目分成12个月，共计336个表，有的表内容还特别多，数字特别大，如下所示：

照这个工作量，一个数一个数敲到Excel中的话，一天不吃不喝估计都搞不定。

幸好，我最近刚入门了R……

听说R语言也有爬取数据的功能，于是在网上简单的搜了一些帖子后，利用了XML包，成功的将这网页中的336个表存成了Excel格式。

代码如下：

>install.packages（“XML”）#安装XML包

>library(XML) #载入XML包

>u<-"http://www.chinacustomsstat.com/aspx/1/NewData/Stat_Class.aspx?state=1&t=2&guid=7146" #写入表格所在的网址

>tbls<-readHTMLTable(u) #分析网页中的表格，如果网页包含多个表格，需要确定读取哪个表。可通过识别表的行数来确定，具体见R语言网页数据抓取的一个实例_戊甲_新浪博客

>pop<-readHTMLTable(u,which=1) #读取网页中的第一张表

>write.csv(pop,file="d:/pop.csv") #存储pop为CSV文档至D盘中

这样，就快速实现了网页中的数据爬取。第一次将R语言运用到工作中去，灰常有成就感~但是毕竟有336个网页，最后要运行336次代码，工作量也是有的。各位童鞋如果有更好的方法可以更快速的导出数据的欢迎提供~

如何用R语言爬取网页表格数据节省一天工作时间
今天R语言给我帮了一个大忙，简单的几行代码几乎节省了我一天的时间，小白表示R语言太有用了！问题如下：我想获取网...
R爬虫小白实例教程 - 基于rvest包
注：本文主要参照：手把手 | 教你爬下100部电影数据：R语言网页爬取入门指南（http://mp.weixin....
简单的爬虫例子
爬取的数据存入Excel表格分析要爬取的内容的网页结构：执行：python demo.py 效果生成一个q...
描述统计学之R语言实战2：图形法
上篇《描述统计学之R语言实战1：表格法》主要介绍了如何用R语言实现单变量数据、两个变量数据的表格统计法，本篇将介绍...
转载一些好的技术文章
1，关于pandas的read_html（）函数爬取网页的表格数据，并且保存到mysql数据库中(https://...
搜狗·疫情数据爬取（Python）
上周已经分享过搜狗·疫情数据爬取（R语言），这次分享一下搜狗·疫情数据爬取（Python）不说废话，直接上代码。...
使用R语言爬取DailyMed药物信息
之前介绍过如何批量爬取NCBI中基因详细信息，今天介绍爬取DailyMed指定药物的数据。点击查看：R语言批量爬...
使用Python爬取网站数据分析
玩Chat分享有一段时间了，回过头来看看从数据爬取（如何用 Python 爬取网页制作电子书）、前后端（用 Kot...
R语言 | 网页数据爬取rvest包学习
从零开始学习rvest网络爬虫抓数据-Stone.Hou 大神 Hadley rvest in GitHub参考資...
R爬虫实战--爬取MalaCard疾病数据库信息
之前只知道python爬虫，偶然了解到R语言也有相应的R包完成网页爬取。使用下来觉得R爬虫比较方便的（尤其对于我目...

网友评论

smallfen:你好，我想问问怎么对多页网站数据进行爬取呢？一共有30多页，每页网址都不一样。看了评论说可以采取循环语句，可是试了试，还是不太懂。谢谢～

小熊猫在成长: @smallfen 你看看那30多页的网址后面一些数字是不是有规律的，如果是的，就可以写一个循环。

育种数据分析之放飞自我:我将代码做了排版，方便拷贝：
```
install.packages("XML")
library(XML) #载入XML包
u<-"http://www.chinacustomsstat.com/aspx/1/NewData/Stat_Class.aspx?state=1&t=2&guid=7146" #写入表格所在的网址
tbls<-readHTMLTable(u) #分析网页中的表格，如果网页包含多个表格，需要确定读取哪个表。
str(tbls)
pop<-readHTMLTable(u,which=1) #读取网页中的第一张表
head(pop)
write.csv(pop,file="d:/pop.csv") #存储pop为CSV文档至D盘中
```

升华的信石:请问是在哪学习的R语言？

升华的信石:@单程笃行？？？你是

88424576d664:你也在呀。

小熊猫在成长:@升华的信石我跟着一个课程自学的，你可以关注公众号猴子聊人物，里面有介绍

yoga_haha:提取页面链接，做一个循环啊

小熊猫在成长:@yoga_haha 嗯呐，后期改进啦

MOON学术论文写作:试试用这个软件采集 www.dxcer.com

smallfen:你好，我想问问怎么对多页网站数据进行爬取呢？一共有30多页，每页网址都不一样。看了评论说可以采取循环语句，可是试了试，还是不太懂。谢谢～
小熊猫在成长: @smallfen 你看看那30多页的网址后面一些数字是不是有规律的，如果是的，就可以写一个循环。
育种数据分析之放飞自我:我将代码做了排版，方便拷贝：
```
install.packages("XML")
library(XML) #载入XML包
u<-"http://www.chinacustomsstat.com/aspx/1/NewData/Stat_Class.aspx?state=1&t=2&guid=7146" #写入表格所在的网址
tbls<-readHTMLTable(u) #分析网页中的表格，如果网页包含多个表格，需要确定读取哪个表。
str(tbls)
pop<-readHTMLTable(u,which=1) #读取网页中的第一张表
head(pop)
write.csv(pop,file="d:/pop.csv") #存储pop为CSV文档至D盘中
```
升华的信石:请问是在哪学习的R语言？
升华的信石:@单程笃行？？？你是
88424576d664:你也在呀。
小熊猫在成长:@升华的信石我跟着一个课程自学的，你可以关注公众号猴子聊人物，里面有介绍
yoga_haha:提取页面链接，做一个循环啊
小熊猫在成长:@yoga_haha 嗯呐，后期改进啦
MOON学术论文写作:试试用这个软件采集 www.dxcer.com

如何用R语言爬取网页表格数据节省一天工作时间

相关文章

如何用R语言爬取网页表格数据节省一天工作时间

R爬虫小白实例教程 - 基于rvest包

简单的爬虫例子

描述统计学之R语言实战2：图形法

转载一些好的技术文章

搜狗·疫情数据爬取（Python）

使用R语言爬取DailyMed药物信息

使用Python爬取网站数据分析

R语言 | 网页数据爬取rvest包学习

R爬虫实战--爬取MalaCard疾病数据库信息

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

编程

大数据部落

数据-R语言-图表-决策-Linux-Python

大数据学习资料

玩转大数据

数据科学与R语言

@IT·互联网

数据分析