爬虫--R语言--基础知识

作者: 小贝学生信 | 来源:发表于2021-11-20 14:04 被阅读0次

爬虫--R语言--代码实战(以豆瓣网站为例) - 简书 (jianshu.com)
爬虫--R语言--基础知识 - 简书 (jianshu.com)

之前有断断续续学过基于R语言的爬虫,这次再从头梳理一遍流程与要点,供以后自己需要用到的时候参考。

1、html基础与xpath语法

1.1 html基础

1.2 xpath语法

2、xpath工具推荐

2.1 浏览器自带的定位功能

  • 打开目标网页→ 右键单击“检查”→点击审查元素窗口左上角箭头→网页界面选择感兴趣内容→选中元素窗口高亮部分→右键单击,选择copy xpath


    image.png
  • 在元素窗口,使用ctrl+F快捷键,可以不断调试xpath


2.2 google插件之XPath Helper

  • 可以用来非常方便地调试、验证我们的xpath


2.3 google插件之SelectorGadget

  • 该插件只需要我们在网页选择好感兴趣的标签,然后会自动生成能够定位到目标节点的xpath路径;
  • 不过有一个缺点就是:SelectorGadget生成的xpath路径一般比较复杂,如果我们自己花心思调试一下(2.1)往往会生成简洁的xpath路径【通往罗马的道路不止一条】

3、R语言爬虫流程【重点】

一开始学习R语言爬虫时,直接xml2::read_html()对提交的网址进行解析,但经常会出现提交正确的xpath路径,但是没有提取到节点内容的尴尬结果{xml_nodeset (0)}
后来了解到针对动态网页的selenium爬取方法,尝试了一下果然可以得到预期的结果。而且我觉得动静态网页通吃,因此以后的R语言爬虫都采用下述的流程来操作。

前期准备:selenium相关配置(window) ⭐

参考笔记:https://zhuanlan.zhihu.com/p/24772389

step1:安装Java
  • 下载、安装容易,但是将java命令添加到环境变量需要仔细一点
    网上有很多笔记,例如:Java JDK安装和配置 - Java教程™ (yiibai.com)
  • 如果在window的cmd平台调用java命令,出现如下结果,说明安装、配置java成功了
step2:chrome浏览器相关
  • 首先要下载、安装Chrome浏览器,根据提示选择默认安装路径即可 https://www.google.cn/chrome/
  • 然后要下载ChromeDriver.exe https://sites.google.com/chromium.org/driver/
    有两点要注意(1)下载ChromeDriver版本要与Chrome版本一致(我的是94系列);(2)储存路径要与chrome.exe在一个文件夹内;我的安装路径是 C:\Program Files\Google\Chrome\Application
step3:下载selenium-server-standalone.jar

最后如果调用下面命令,出现如下图的结果说明selenium相关环境都配置好了

java -Dwebdriver.chrome.driver="C:\Program Files\Google\Chrome\Application\chromedriver.exe" -jar "C:\Program Files\Google\Chrome\Application\selenium-server-standalone-3.141.59.jar"

将会在下一节记录基于R语言爬虫的代码实操练习~

相关文章

  • 爬虫--R语言--基础知识

    爬虫--R语言--代码实战(以豆瓣网站为例) - 简书 (jianshu.com)[https://www.jia...

  • R爬虫实战—抓取PubMed文章的基本信息

    前几期简单介绍了一系列R爬虫的基础知识、核心R包以及一些辅助工具,其中,基础知识包括R爬虫必备基础——HTML和C...

  • R爬虫实战--爬取MalaCard疾病数据库信息

    之前只知道python爬虫,偶然了解到R语言也有相应的R包完成网页爬取。使用下来觉得R爬虫比较方便的(尤其对于我目...

  • Java爬虫高级教程

    作为网络爬虫的入门采用Java开发语言,内容涵盖了网络爬虫的原理以及开发逻辑,Java网络爬虫基础知识,网络抓包介...

  • R语言爬虫2

    接上篇。 参考文章 大道无形x我有型的文章 安装R包rvest与xml2 爬取数据 以新浪网为例 http://f...

  • R语言爬虫1

    最近受新冠病毒的影响,放假在家没有事情做,加了个R语言兼职群赚点外快,然后才发现自己的R语言还有很大提升空间。我只...

  • 大数据 | 从实例教你掌握R语言

    【R语言基础知识】: R:是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软...

  • R语言基础知识

    https://mp.weixin.qq.com/s/UhEzSNr-wjc61n5K2I8HTw

  • R语言基础知识

    https://nbviewer.jupyter.org/github/shixiangwang/masterR/...

  • 爬虫程序编写与常见问题解决办法~

    基础知识 工欲善其事,必先利其器,要编写爬虫程序,首先必须找一个爬虫框架,如果你使用Python语言,可以选用sc...

网友评论

    本文标题:爬虫--R语言--基础知识

    本文链接:https://www.haomeiwen.com/subject/ztietrtx.html