美文网首页
R语言爬虫2

R语言爬虫2

作者: 生物系烟酒僧 | 来源:发表于2020-03-01 14:45 被阅读0次

上篇

参考文章

大道无形x我有型的文章

安装R包rvest与xml2

install.packages("xml2"); library("xml2")
install.packages("rvest"); library("revst")

爬取数据

以新浪网为例 http://finance.sina.com.cn/roll/index.d.html?cid=56589&page=1
使用嵌入selectorgadget插件的谷歌浏览器打开网页,在空白处右键,查看源码。找到该网页的编码方式——“charset",charset是啥意思,我也不清楚,但我搜到了介绍charset的文章

image.png

如上图所示,"charset=utf-8",这表明该网页字符编码类型是UTF-8。然后我们把这个网站R语言:

#指定网址
> url<-"http://finance.sina.com.cn/roll/index.d.html?cid=56589&page=1"
#指定编码类型
> webpage<-read_html(url,encoding = "utf-8") 
#看看webpage是个什么玩意
> class(webpage)
[1] "xml_document" "xml_node" 
#至此把网页读进了R

点击右上角的selectorgadget图标选取网页元素,参考教程选取的第一个,我这里也选取第一个


image.png

下方出现了个框


image.png
这a啥意思?不知道。继续跟着教程往下走吧。
#告诉R我们想爬取网页的节点
> news_html<-html_nodes(webpage,"a")
> class(news_html)
[1] "xml_nodeset"
> head(news_html)
{xml_nodeset (6)}
[1] <a href="http://finance.sina.com.cn/"><img src="http://i1.sinaimg.cn/dy/ ...
[2] <a href="http://finance.sina.com.cn/"><img src="http://i1.sinaimg.cn/dy/ ...
[3] <a href="http://finance.sina.com.cn/">财经首页</a>
[4] <a href="http://www.sina.com.cn/">新浪首页</a>
[5] <a href="http://news.sina.com.cn/guide/">新浪导航</a>
[6] <a href="http://finance.sina.com.cn/stock/">沪深股票</a>
#提取文本
> news<-html_text(news_html)
> head(news)
[1] ""         ""         "财经首页" "新浪首页" "新浪导航" "沪深股票"

因为网页中有很多图片,html_text只把文字提取出来了。rvest,xml2包还有很多功能可以研究,这篇文章只是重复一位大佬的教程,他的教程后面还有很多我不明白的地方就不在这里重复了。
\color{red}{我再研究研究爬虫,争取写一篇自己的教程出来。}

相关文章

  • R语言爬虫2

    接上篇。 参考文章 大道无形x我有型的文章 安装R包rvest与xml2 爬取数据 以新浪网为例 http://f...

  • R爬虫实战--爬取MalaCard疾病数据库信息

    之前只知道python爬虫,偶然了解到R语言也有相应的R包完成网页爬取。使用下来觉得R爬虫比较方便的(尤其对于我目...

  • R语言爬虫1

    最近受新冠病毒的影响,放假在家没有事情做,加了个R语言兼职群赚点外快,然后才发现自己的R语言还有很大提升空间。我只...

  • R语言网络爬虫经验

    欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞...

  • 产品经理角度看数据分析和数据埋点

    首先声明:PEST模型、SPSS、R语言、5W2H、爬虫抓取、SAS、Python等一切“高深莫测”的内容都不在本...

  • 爬虫--R语言--基础知识

    爬虫--R语言--代码实战(以豆瓣网站为例) - 简书 (jianshu.com)[https://www.jia...

  • 学习小组Day4笔记--扬马延

    R语言学习 1. R以及R studio安装 直接搜索R语言网页可直接安装 2. R语言入门 参考书目《R for...

  • R语言基础--数据类型-总结

    R语言基础--数据类型-总结 1、R语言基础--数据类型之向量 2、R语言基础--数据类型之因子 3、R语言基础-...

  • 学习小组Day4-沈荣

    R语言基础 1.R与Rstudio的安装 2.了解R与Rstudio ①R语言: R是一种编程语言,也是统计计算和...

  • R语言网状Meta 分析-原理和实战

    R语言meta分析⑴meta包 R语言meta分析(2)单个率的Meta分析 R语言meta分析(3)亚组分析 R...

网友评论

      本文标题:R语言爬虫2

      本文链接:https://www.haomeiwen.com/subject/jlcmhhtx.html