美文网首页
如何从URL中读取txt或csv文件?

如何从URL中读取txt或csv文件?

作者: xiiao蜗牛 | 来源:发表于2017-10-10 20:08 被阅读176次

这篇文章主要讨论如何从URL中获取数据。为什么需要从URL中获取数据?

  • 你想和不熟悉R的人分享你的代码,以及你想避免解释如何在文件开头改变文件的路径等问题。
  • URL中的数据一直更新,你想实时处理最新的数据。
  • 你希望你的代码在另一台机器以及另一个目录下工作。
  • 你想在博客中发布一个完整的可重复的分析实验,你不想在文中出现”请到www.xxxx.com,下载数据并加载到R中”。

不管你的原因是什么,都是很棒的想法。下面是一些从URL中获取数据的一些代码,希望能帮到一些人。

说明!!!

这里仅仅处理表格形式的数据,并不是从网络中爬取数据。这是最简单的一种情况:在URL中储存着一个txt或csv文件,你希望直接读取数据,而不是先下载到本地,然后再读进R中。

使用data.table::fread()

我喜欢data.table包。几乎每个项目中,我都会使用它。它是R中data.frame对象的扩展,但是在性能上有很大的提升。其中一个改进点就是fread()函数。它类似于base包中的read.csv()和read.table()函数。fread()在很多地方做了改善,但是这里我们仅仅使用它来读取URL中的数据。使用fread()在本地读取数据的格式如下:

library(data.table)
mydat <- fread('C://Some/File/Path.csv')

从网络源中读取数据和这没有什么区别。在help文件(?fread)中作者提供的样例为:

library(data.table)
mydat <- fread('http://www.stats.ox.ac.uk/pub/datasets/csb/ch11b.dat')
head(mydat)
   V1  V2   V3    V4 V5
1:  1 307  930 36.58  0
2:  2 307  940 36.73  0
3:  3 307  950 36.93  0
4:  4 307 1000 37.15  0
5:  5 307 1010 37.23  0
6:  6 307 1020 37.24  0

如果你在浏览器中访问上面的链接,会弹出下载的窗口。如果你访问上级地址http://www.stats.ox.ac.uk/pub/datasets/csb,你会发现很多的数据下载链接。通过fread()我们可以直接读取数据到R中,而不用点击下载链接进行下载。

使用RStudio

在RStudio中,通过点击Tools -> Import Dataset -> From Web URL,然后填写URL地址。

使用RCurl::getURL()

library(RCurl)
myfile <- getURL('https://sakai.unc.edu/access/content/group/3d1eb92e-7848-4f55-90c3-7c72a54e7e43/public/data/bycatch.csv', ssl.verifyhost=FALSE, ssl.verifypeer=FALSE)

getURL()抓取指定URL中的内容,并不返回data.frame对象。它仅仅把URL中的内容储存到字符串中。

class(myfile)
[1] "character"

所以,我们怎么获取data.frame对象呢?我们可以使用textConnection()函数打开字符串中的链接,就像打开本地硬盘中的文件一样。接着使用read.csv()函数(你也可以使用read.table()或fread()函数)读取字符串对象并创建data.frame对象。

mydat <- read.csv(textConnection(myfile), header=T)
head(mydat)
  Season  Area Gear.Type  Time Tows Bycatch
1 1989-90 North    Bottom   Day   48       0
2 1989-90 North    Bottom Night    6       0
3 1989-90 North Mid-Water Night    1       0
4 1989-90 South    Bottom   Day  139       0
5 1989-90 South Mid-Water   Day    6       0
6 1989-90 South    Bottom Night    6       0

现在,URL中的数据已成功转换为R中data.frame对象。

相关文章

  • 如何从URL中读取txt或csv文件?

    这篇文章主要讨论如何从URL中获取数据。为什么需要从URL中获取数据? 你想和不熟悉R的人分享你的代码,以及你想避...

  • Pandas学习小结【2】解析CSV文件

    Pandas可以读取多种类型文件,如excel, txt, csv等, 这里小结下读取csv文件。 读取CSV文件...

  • R数据读写

    csv文件读写 txt文件读写 读取excel文件 转成csv文件读取(逗号分隔) 专程prn文件读取(空格分隔)...

  • 算法技术面

    . R语言的文件读取:csv文件的读取方式(read.csv),txt文件的读取方式(read.table) 2....

  • 数据挖掘一般流程及模型整理

    一.数据读取: csv文件:csv_data= pd.read_csv('/路径/test.csv') txt文件...

  • jmeter--循环控制器

    why? 在使用csv参数化时,线程组默认只能读取一次csv或txt文件,但是我们的初衷是循环读取文件中所有的参数...

  • 6 Pandas 读取数据

    利用pandas读取多种格式数据1,读取excel文件 2,读取csv(',')文件 3,读取txt('\t')文...

  • 利用Python处理Excel数据

    读取数据 读取x.xlsx文件 读取文件夹 读取txt文件 读取csv格式Excel表 写入excel 显示数据 ...

  • 数据挖掘-pandas库的使用

    读取 pandas是python中的数据处理库,可以读取数据库,csv文件,txt文件,excel文件,hdf5文...

  • 02. Pandas读取数据

    02. Pandas读取数据 本代码演示:pandas读取纯文本文件读取csv文件读取txt文件pandas读取x...

网友评论

      本文标题:如何从URL中读取txt或csv文件?

      本文链接:https://www.haomeiwen.com/subject/opubyxtx.html